GR-2：字节跳动研究团队推出新一代机器人操作模型

近日，字节跳动研究团队的Robotics Research Team推出了GR-2，这是一款集视频、语言和动作于一体的生成式机器人操作模型，旨在实现机器人操作的多样性和泛化性。GR-2作为GR-1的升级版，不仅在性能上有了显著提升，还在多任务学习、泛化能力等方面展现出了强大的实力。

GR-2的核心优势在于其大规模的视频预训练。该模型在3800万个视频片段和超过500亿个标记的数据上进行了预训练，从而捕捉到了世界的动态信息。这一庞大的数据集为GR-2在后续的策略学习中提供了丰富的知识库，使其能够在广泛的机器人任务和环境中展现出良好的泛化能力。
Gr 2：字节跳动研究团队推出新一代机器人操作模型
在训练方法上，GR-2采用了两个阶段：视频生成预训练和机器人数据微调。在预训练阶段，GR-2通过生成视频来学习捕捉关键的时间动态和语义信息，这些信息对于下游的策略学习至关重要。在微调阶段，GR-2则利用机器人数据来预测动作轨迹和视频，从而实现了视频生成和动作预测的双重能力。

GR-2的多任务学习能力令人印象深刻。在超过100项任务中，GR-2的平均成功率高达97.7%。此外，GR-2还展现出了卓越的泛化能力，能够处理新的、之前未见过的场景，包括新的背景、环境、物体和任务。这些能力使得GR-2在真实世界应用中具有极高的实用性和适应性。
Gr 2：字节跳动研究团队推出新一代机器人操作模型
在工业机器人领域，GR-2同样表现出色。在一项涉及122个物体的端到端抓取实验中，GR-2在训练时见过的和未见过的物体上都取得了非常高的成功率。这一结果表明，GR-2不仅具有强大的物体识别能力，还能在复杂的工业环境中灵活应对各种挑战。

此外，GR-2还在CALVIN基准测试中刷新了记录。CALVIN是一个针对长周期语言条件机器人操作的模拟基准测试。在ABCD-D分裂实验中，GR-2在成功率和平均任务长度方面都超过了其他五个最先进的基线方法，包括RT-1、MT-ACT、HULC、RoboFlamingo和GR-1。
Gr 2：字节跳动研究团队推出新一代机器人操作模型
值得注意的是，GR-2的性能随着模型规模的增加而提升。在预训练阶段，视频预测的验证损失随着模型规模的增加而降低；在微调阶段，任务成功率也随着模型规模的增加而提高。这一结果表明，GR-2在视频生成和策略学习方面都具有很强的可扩展性，为未来的持续改进提供了广阔的空间。

总的来说，GR-2作为一款集视频生成、语言理解和动作预测于一体的生成式机器人操作模型，在多任务学习、泛化能力和工业机器人应用等方面都展现出了强大的实力。随着技术的不断进步和模型规模的不断扩大，GR-2有望在更多领域发挥更大的作用，为人类带来更多的便利和价值。
详情链接:https://gr2-manipulation.github.io/

AD：精心整理了2000+好用的AI工具！点此获取