近日,字节跳动研究团队的Robotics Research Team推出了GR-2,这是一款集视频、语言和动作于一体的生成式机器人操作模型,旨在实现机器人操作的多样性和泛化性。GR-2作为GR-1的升级版,不仅在性能上有了显著提升,还在多任务学习、泛化能力等方面展现出了强大的实力。
GR-2的核心优势在于其大规模的视频预训练。该模型在3800万个视频片段和超过500亿个标记的数据上进行了预训练,从而捕捉到了世界的动态信息。这一庞大的数据集为GR-2在后续的策略学习中提供了丰富的知识库,使其能够在广泛的机器人任务和环境中展现出良好的泛化能力。

在训练方法上,GR-2采用了两个阶段:视频生成预训练和机器人数据微调。在预训练阶段,GR-2通过生成视频来学习捕捉关键的时间动态和语义信息,这些信息对于下游的策略学习至关重要。在微调阶段,GR-2则利用机器人数据来预测动作轨迹和视频,从而实现了视频生成和动作预测的双重能力。
GR-2的多任务学习能力令人印象深刻。在超过100项任务中,GR-2的平均成功率高达97.7%。此外,GR-2还展现出了卓越的泛化能力,能够处理新的、之前未见过的场景,包括新的背景、环境、物体和任务。这些能力使得GR-2在真实世界应用中具有极高的实用性和适应性。

在工业机器人领域,GR-2同样表现出色。在一项涉及122个物体的端到端抓取实验中,GR-2在训练时见过的和未见过的物体上都取得了非常高的成功率。这一结果表明,GR-2不仅具有强大的物体识别能力,还能在复杂的工业环境中灵活应对各种挑战。
此外,GR-2还在CALVIN基准测试中刷新了记录。CALVIN是一个针对长周期语言条件机器人操作的模拟基准测试。在ABCD-D分裂实验中,GR-2在成功率和平均任务长度方面都超过了其他五个最先进的基线方法,包括RT-1、MT-ACT、HULC、RoboFlamingo和GR-1。

值得注意的是,GR-2的性能随着模型规模的增加而提升。在预训练阶段,视频预测的验证损失随着模型规模的增加而降低;在微调阶段,任务成功率也随着模型规模的增加而提高。这一结果表明,GR-2在视频生成和策略学习方面都具有很强的可扩展性,为未来的持续改进提供了广阔的空间。
总的来说,GR-2作为一款集视频生成、语言理解和动作预测于一体的生成式机器人操作模型,在多任务学习、泛化能力和工业机器人应用等方面都展现出了强大的实力。随着技术的不断进步和模型规模的不断扩大,GR-2有望在更多领域发挥更大的作用,为人类带来更多的便利和价值。
详情链接:https://gr2-manipulation.github.io/


