智元机器人GO-1:全球首个开源通用具身智能大模型
AI 机器人 AI开放平台
智元机器人GO-1:全球首个开源通用具身智能大模型

GO-1是智元机器人推出的全球首个开源通用具身智能基座大模型,基于ViLLA架构,让机器人“看得懂、想得通、做得准”。

开通正版Chatgpt账号联系QQ:515002667
GO-1是智元机器人推出的全球首个开源通用具身智能基座大模型,基于ViLLA架构,让机器人“看得懂、想得通、做得准”。

1 主要功能
1.1 跨本体通用操控
同一模型可直接部署到AgiBot G1、松灵机器人、Franka臂等不同构型本体,无需重新训练。
1.2 多模态场景理解
支持图像、文本、力觉、多视角视频同步输入,完成“倒水、补货、擦桌、分拣”等长序列任务。
1.3 零样本/小样本新技能
给定一段自然语言指令+单张图片,即可生成从未见过的动作序列,平均成功率提升32%。
1.4 持续进化
真机运行数据自动回流,云端MoE增量训练,一天内完成模型热更新。

2 技术原理
2.1 ViLLA架构
Vision-Language-Latent-Action三层协同:
  • VLM层:InternVL-2B多模态大模型,负责“看得懂”。
  • Latent Planner:生成隐式动作标记,弥合语义-动作鸿沟。
  • Action Expert:扩散去噪网络,把隐标记转为50 Hz连续关节轨迹。
    2.2 MoE双系统
    规划器与动作专家共享Transformer主干,但使用独立FFN与Q/K/V/O投影,避免微调时遗忘VLM推理能力。
    2.3 数据金字塔
    互联网图文→人类视频→跨本体视频→仿真数据→真机示教,共100万+条30 s长轨迹,覆盖家庭、零售、工业、餐厅、办公五大场景。

3 应用场景
3.1 家庭服务:整理桌面、叠衣、洗碗机摆盘。
3.2 零售物流:补货、扫码、拣选、贴标。
3.3 餐饮后厨:倒水、搅拌、擦桌、回收餐盘。
3.4 轻工业:零件抓取、插拔、检测、分拣。
3.5 教育科研:低成本验证具身算法,支持ROS2插件即插即训。

4 使用方法
4.1 获取模型
GitHub搜索“AgiBot GO-1”,下载2.3 B参数开源权重与推理代码。
4.2 环境准备
Python≥3.9、PyTorch≥2.2、CUDA≥11.8;官方提供Docker一键镜像。
4.3 快速推理
bash

复制
python go1_infer.py --prompt "把蓝色方块放进盒子" --image ./scene.jpg --robot_config franka.yaml
4.4 微调训练
上传自有轨迹数据,运行scripts/finetune_moe.sh,8×A100一天完成。
4.5 真机部署
ROS2节点自动发布关节轨迹,支持MoveIt、DDS中间件,延迟<80 ms。

5 适用人群
  • 机器人算法研究者
  • 服务/工业机器人厂商
  • AI+硬件创业公司
  • 高校自动化/计算机实验室
  • 智能家居与系统集成商

6 优缺点
6.1 优点
  • 真正开源权重+数据+工具链,零门槛商用。
  • 跨本体零-shot迁移,无需重新标定。
  • 长序列任务成功率78%,领先主流VLA模型32%。
  • 支持持续增量学习,部署后越用越聪明。
6.2 缺点
  • 当前仅支持桌面级/轻载臂,重载工业臂需二次训练。
  • 对GPU显存要求≥12 GB,边缘设备需裁剪量化。
  • 隐式标记可解释性低,调试需借助可视化工具。
  • 复杂装配任务(≤0.5 mm精度)成功率仍有待提升。

GO-1的项目地址

  • 项目官网:https://agibot-world.com/blog/go1
  • GitHub仓库:https://github.com/OpenDriveLab/AgiBot-World
  • HuggingFace模型库:https://huggingface.co/agibot-world/GO-1
  • 技术论文:https://agibot-world.com/blog/agibot_go1
具身智能、开源大模型、机器人控制、多模态学习、ROS2、智能家居、工业自动化

相关导航