
RoboBrain 2.0 是目前最强的开源具身智能大脑模型,让机器人“看得更清、想得更多、做得更巧”。
1 主要功能
1.1 多模态感知:支持单图、多图、长视频、高分辨率输入,可输出目标检测框、可抓取区域、轨迹点、场景图等结构化信息。
1.2 长程推理:内置长链思维(long-chain-of-thought)机制,可完成复杂指令的多步拆解、闭环反馈与实时记忆更新。
1.3 任务泛化:在 9 项空间推理基准和 3 项时序规划基准上达到 SOTA,覆盖抓取放置、导航、多机协作等任务。
1.4 双模型规格:提供 7B 轻量版和 32B 高性能版,满足不同算力场景。
1.1 多模态感知:支持单图、多图、长视频、高分辨率输入,可输出目标检测框、可抓取区域、轨迹点、场景图等结构化信息。
1.2 长程推理:内置长链思维(long-chain-of-thought)机制,可完成复杂指令的多步拆解、闭环反馈与实时记忆更新。
1.3 任务泛化:在 9 项空间推理基准和 3 项时序规划基准上达到 SOTA,覆盖抓取放置、导航、多机协作等任务。
1.4 双模型规格:提供 7B 轻量版和 32B 高性能版,满足不同算力场景。
2 技术原理
2.1 异构架构:Vision Encoder + MLP Projector + 大语言模型 LLM Decoder 三段式结构。
2.2 统一 token 流:图像、文本、结构化图全部转为一维 token,统一送入 LLM 做自回归生成。
2.3 多阶段训练:先在大量图文对齐数据上预训练,再在具身指令数据上指令微调,最后通过 Reason-RFT 强化微调提升推理鲁棒性。
2.4 训练框架:使用 BAAI 自研 FlagScale(Megatron 版)与 FlagEvalMM 评估框架,支持千卡分布式训练与多任务并行评测。
2.1 异构架构:Vision Encoder + MLP Projector + 大语言模型 LLM Decoder 三段式结构。
2.2 统一 token 流:图像、文本、结构化图全部转为一维 token,统一送入 LLM 做自回归生成。
2.3 多阶段训练:先在大量图文对齐数据上预训练,再在具身指令数据上指令微调,最后通过 Reason-RFT 强化微调提升推理鲁棒性。
2.4 训练框架:使用 BAAI 自研 FlagScale(Megatron 版)与 FlagEvalMM 评估框架,支持千卡分布式训练与多任务并行评测。
3 应用场景
3.1 服务机器人:家庭清洁、物品抓取与递送。
3.2 工业机械臂:流水线上下料、复杂装配、故障检测。
3.3 多机协作:仓储 AGV 与机械臂协同搬运、无人机群体巡检。
3.4 虚拟训练:在仿真环境中生成轨迹与场景图,用于低成本数据增强。
3.1 服务机器人:家庭清洁、物品抓取与递送。
3.2 工业机械臂:流水线上下料、复杂装配、故障检测。
3.3 多机协作:仓储 AGV 与机械臂协同搬运、无人机群体巡检。
3.4 虚拟训练:在仿真环境中生成轨迹与场景图,用于低成本数据增强。
4 使用方法
4.1 环境准备
4.1 环境准备
git clone https://github.com/FlagOpen/RoboBrain2.0.git
conda create -n robobrain2 python=3.10 && conda activate robobrain2
pip install -r requirements.txt
4.2 快速推理
Python
from inference import SimpleInference
model = SimpleInference("BAAI/RoboBrain2.0-7B")
pred = model.inference(prompt, image, task="grounding", plot=True)
4.3 训练微调
-
Megatron 用户:参考 QuickStart.md 使用 FlagScale。
-
DeepSpeed 用户:直接加载 Qwen2.5-VL 官方脚本进行 LoRA/全参微调。
4.4 评估
flagevalmm --tasks tasks/where2place/where2place.py \
--model BAAI/RoboBrain2.0-7B \
--backend vllm \
--num-workers 8
5 适用人群
5.1 具身智能研究者:需要开源基线对比与二次创新。
5.2 机器人企业工程师:快速部署感知-决策一体化方案。
5.3 高校教学团队:作为《机器人学》《多模态大模型》课程实验平台。
5.1 具身智能研究者:需要开源基线对比与二次创新。
5.2 机器人企业工程师:快速部署感知-决策一体化方案。
5.3 高校教学团队:作为《机器人学》《多模态大模型》课程实验平台。
6 优缺点介绍
6.1 优点
6.1 优点
-
完全开源,商业友好;
-
7B/32B 双规格,端-云灵活部署;
-
在多项基准超越 Gemini 2.5 Pro、Claude Sonnet 4 等闭源模型。
6.2 缺点 -
32B 模型推理需 4×A100 80G 以上显存,部署门槛高;
-
当前训练数据以英文指令为主,中文场景需额外微调;
-
尚未支持触觉、力觉等多模态输入。
分类标签:具身智能、开源大模型、机器人感知决策、多模态学习、空间推理、轨迹规划
多图像条件下的主体到图像生成模型,通过渐进式跨模态对齐和通用旋转位置嵌入,实现了高一致性和可控性的多主体生成。