蚂蚁集团LingBot-VLA：开启双臂机器人“大模型操控”新时代

AI 机器人 AI开源项目

正 LingBot-VLA是蚂蚁集团推出的一个专注于现实世界复杂操控任务的视觉-语言-动作基础模型，它通过海量真实机器人数据进行训练，实现了用自然语言指令直接操控多种不同形态的双臂机器人。

链接直达手机查看

正

LingBot-VLA是蚂蚁集团推出的一个专注于现实世界复杂操控任务的视觉-语言-动作基础模型，它通过海量真实机器人数据进行训练，实现了用自然语言指令直接操控多种不同形态的双臂机器人。

基于约2万小时的真实世界双臂机器人操控数据训练而成，LingBot-VLA展现了卓越的任务泛化能力和跨平台适应性。其创新的“混合Transformer”架构和高效的训练代码库，不仅提升了性能，也大幅降低了研发门槛与计算成本，是具身智能和机器人学习领域一项具有重要实用价值的开源成果。

一、主要功能

1. 跨平台通用操控
LingBot-VLA的核心能力在于其强大的跨平台泛化性。模型在包括AgiBot G1、Realman Rs-02、Bimanual Franka等在内的9种主流双臂机器人配置上进行了预训练。因此，它无需针对每一种机器人进行彻底的重新训练，就能理解和执行多种操控任务，显著降低了机器人适配的复杂性和成本。

2. 复杂空间任务理解与执行
与传统模型相比，LingBot-VLA特别强化了空间推理和几何理解能力。通过引入专门的深度感知模型（LingBot-Depth）和空间表征技术，它能够出色地完成那些需要精确深度感知和几何规划的任务，例如将物体叠放整齐、将部件插入狭小孔洞，或在避免碰撞的前提下进行灵巧操作。

3. 高效的小样本快速适配
面对全新的、未见过的具体任务，LingBot-VLA展现出极高的数据效率。研究表明，对于一项新任务，模型仅需约80条任务演示数据进行微调，就能快速获得优异的执行能力。这使得机器人快速学习新技能成为可能，极大地提升了部署的灵活性。

4. 自然语言交互
用户可以使用自然语言直接向机器人发出指令。模型能够理解多步骤、带有约束条件的复杂任务描述，并将这些语义信息转化为一系列精确的机器人关节运动或末端执行器动作，实现“所说即所得”的智能化操控。

二、技术原理

1. 混合Transformer架构
LingBot-VLA采用了一种创新的 “混合Transformer” 架构。该架构以强大的多模态大模型Qwen2.5-VL作为视觉-语言理解的主干网络，同时并联一个专门负责动作生成的 “动作专家” 模块。两个模块通过共享的自注意力机制进行层间交互，既保证了语义信息能持续指导动作生成，又避免了不同模态之间的相互干扰，实现了高效的多模态融合。

2. 大规模、多形态预训练数据
模型的泛化能力源于其高质量的预训练数据。其训练数据量达到约2万小时，全部来自9种不同形态双臂机器人在真实世界执行任务的操作记录。数据涵盖了丰富的场景、物体和任务类型，确保了模型能学习到通用而非过拟合的操控策略。

3. 空间感知增强
为了弥补传统VLA模型在几何推理上的不足，研究团队引入了LingBot-Depth空间感知模型。该模型通过特征蒸馏技术，将精确的3D几何信息融入到VLA模型的视觉特征中，从而赋予了模型对物体远近、相对位置和三维结构的深刻理解能力。

4. 高效的训练基础设施
团队开发了高性能的开源代码库，针对大规模VLA训练进行了系统性优化，包括数据加载、分布式训练策略和算子级加速。在8-GPU集群上，其训练吞吐量达到每秒261个样本，相比现有框架有1.5至2.8倍的速度提升，使得训练如此大规模的模型在时间和成本上变得可行。

三、应用场景

1. 工业制造与装配
在电子产品组装、汽车零部件装配等流水线上，LingBot-VLA可以指挥机器人完成拧螺丝、插件、精密贴合等需要视觉反馈和力控配合的复杂工序，适应小批量、多品种的柔性生产需求。

2. 物流与仓储
应用于仓储分拣、包装码垛等环节。机器人可以理解“将易碎品轻拿轻放至箱子左侧”或“按照大小顺序叠放包裹”等指令，自主完成杂乱环境下的抓取、分拣和摆放工作。

3. 实验室自动化
在生化实验室中，驱动机器人完成打开培养皿、移液、样本混合、仪器操作等一系列标准化但繁琐的实验步骤，提升实验效率和可重复性。

4. 家庭与服务机器人
未来可赋能家庭服务机器人完成整理房间、备餐辅助、收纳物品等任务，通过自然语言与人进行流畅协作，理解“把餐桌上的杯子放进洗碗机”这类包含场景和目标的复合指令。

5. 科研与开发
其开源的特性使其成为机器人学、具身人工智能领域研究人员的强大基础模型和实验平台，可用于探索机器人学习的新算法、新评估基准，或快速验证新机器人本体的操控能力。

四、使用方法

1. 环境部署
访问项目在GitHub的开源仓库，按照说明配置Python环境、安装PyTorch等深度学习框架及相关依赖。项目提供了详细的Docker容器配置，可确保环境一致性。

2. 模型获取与加载
用户可以从Hugging Face模型库直接下载预训练好的LingBot-VLA模型权重。利用项目提供的代码，可以轻松加载基础模型，并指定所使用的机器人本体配置文件。

3. 任务微调
对于特定任务，用户需要收集少量（约80-200条）该任务的成功演示数据。使用项目中的工具对数据进行格式化后，调用训练脚本在预训练模型基础上进行有监督微调。得益于高效代码库，微调过程计算消耗相对较低。

4. 部署与推理
将微调后的模型部署到真实的机器人控制系统上。机器人通过摄像头实时捕捉多视角图像，结合用户发出的自然语言指令，模型即可生成相应的关节动作序列，控制机器人完成任务。

五、适用人群

机器人研发工程师：希望为其开发的双臂或多臂机器人快速赋予智能操控能力，减少底层控制算法开发工作量。
AI与机器人学研究员：从事具身智能、视觉-语言-动作模型、机器人学习等领域的前沿研究，需要一个强大的基础模型和高效实验平台。
自动化解决方案工程师：为制造业、物流业等寻求部署柔性、智能的机器人自动化解决方案。
高级技术爱好者与教育者：在学术机构或创客社区中，用于教学、演示或创造性的机器人项目开发。

六、优缺点分析

优点

泛化能力极强：在9种机器人数据上预训练，跨平台和跨任务迁移能力显著，是真正的“通用”操控模型。
数据效率高：小样本即可适配新任务，极大地降低了数据收集成本和时间，适合实际应用部署。
空间推理出色：针对机器人操控的痛点（空间几何）进行专门增强，在执行插、嵌、叠放等任务上精度更高。
计算高效：优化的训练代码库大幅提升了训练和微调速度，降低了总体拥有成本。
完全开源：开放模型权重、代码和部分基准数据，秉持开源精神，极大地推动了领域发展。

缺点

硬件依赖：主要针对双臂机器人开发，要应用于单臂、四足或轮式等其他形态机器人，可能需要额外的适配工作。
实时性挑战：尽管推理速度得到优化，但将大规模模型用于需要极高实时响应的动态任务（如快速抓取飞行物体），仍面临挑战。
长周期任务规划：对于需要长时间序列规划和复杂环境记忆的超长周期任务，模型的性能仍有待进一步验证和提升。
安全性与鲁棒性：在极端或对抗性环境中（如强光干扰、物体严重遮挡），其决策的鲁棒性和安全性需在实际部署中结合传统控制方法进行保障。

具身智能、机器人学习、人工智能、计算机视觉、自然语言处理