蚂蚁集团开源LingBot-VLA:具身智能迎来"一脑多机"新时代

近日,蚂蚁集团旗下具身智能公司灵波科技宣布全面开源视觉-语言-动作(VLA)基础模型LingBot-VLA。该模型基于2万小时真实机器人数据训练,覆盖9种主流双臂机器人构型,在GM-100真机评测中跨本体泛化成功率达17.3%,显著超越π0.5等同类模型,标志着双臂机器人操控正式步入"大模型时代"。

(一)技术架构创新:混合Transformer打破"一机一训"困境

LingBot-VLA采用创新的"混合Transformer"架构,以Qwen2.5-VL作为多模态主干,能够同时处理多视角图像和自然语言指令。模型内置的"动作专家"分支实时结合机器人自身状态,通过条件流匹配技术输出平滑连续的控制轨迹。针对传统模型在空间深度感知上的弱点,研发团队引入LingBot-Depth空间感知模型,采用特征蒸馏技术提升3D空间推理能力,使机器人在叠放、插入、折叠等精细化任务中表现尤为出色。这一架构设计首次验证了具身智能领域的Scaling Law——随着预训练数据从3000小时扩展至2万小时,模型性能持续提升且未现饱和,为行业指明了"大数据+大模型"的技术路线。蚂蚁集团开源lingbot Vla:具身智能迎来"一脑多机"新时代

(二)开源生态突破:80条数据实现跨本体迁移

此次开源不仅提供模型权重,更同步开放了包含数据处理、高效微调及自动化评估的全套代码库。在实际应用中,LingBot-VLA展现出极高的数据效率,仅需约80条特定任务演示数据即可快速适配新机器人,训练效率达到StarVLA、OpenPI等主流框架的1.5~2.8倍。目前该模型已与星海图、松灵、乐聚等机器人厂商完成适配,验证了"一个大脑,多种身体"的跨本体迁移能力,大幅降低了商业化部署门槛。蚂蚁灵波科技CEO朱兴表示,这是蚂蚁开源的首款具身智能基座模型,也是InclusionAI技术体系的关键实践。蚂蚁集团开源lingbot Vla:具身智能迎来"一脑多机"新时代

(三)产业落地提速:从实验室走向规模化应用

在包含100项挑战任务的GM-100现实世界基准测试中,带深度感知版本的LingBot-VLA成功率达17.30%,在RoboTwin 2.0仿真基准中面对光照、杂物等高强度环境干扰,操作成功率比π0.5提升9.92%。这些数据表明,VLA模型正从实验室走向产业化。业内专家指出,LingBot-VLA的开源将推动具身智能从"定制开发"向"基础模型+微调"模式转变,为工业制造、物流仓储、家庭服务等场景的大规模应用奠定基础。随着谷歌等巨头紧随其后开放世界模型体验平台,具身智能领域的开放生态竞争已全面开启。蚂蚁集团开源lingbot Vla:具身智能迎来"一脑多机"新时代

AD:精心整理了2000+好用的AI工具!点此获取

相关推荐

1 1

免费AI工具合集,点击进入

AI对话

玉米AI助手