2025年3月13日,谷歌旗下的DeepMind实验室宣布推出两款新型机器人控制模型——Gemini Robotics和Gemini Robotics-ER。这一创新标志着人工智能在机器人领域的应用迈出了重要一步,为未来的智能机器人发展奠定了坚实基础。
一、Gemini Robotics:是什么?
Gemini Robotics是一款基于Gemini 2.0大语言模型的机器人控制模型,具备“视觉-语言-动作”(VLA)能力。它能够处理视觉信息、理解自然语言指令,并生成相应的物理动作。例如,用户可以命令机器人“将香蕉放入篮子”或“折一只纸狐狸”,机器人将通过摄像头识别物体并完成任务。
此外,Gemini Robotics还具备多形态适应性,能够适配不同类型的机器人平台,如双臂机器人ALOHA2和人形机器人Apollo。这种通用性使得Gemini Robotics能够在多种场景中发挥作用,从家庭助手到工业生产。
Gemini Robotics-ER则专注于“具身推理”,增强了机器人对三维环境的理解能力。它能够实时规划安全的移动轨迹,例如在复杂环境中抓取物体时,判断最佳的抓握方式。
二、对未来的影响
1、提升机器人泛化能力
Gemini Robotics在泛化能力上取得了显著突破,能够执行未经专门训练的新任务。这意味着机器人可以在不可预测的环境中自主学习和适应,从而在家庭、医疗、物流等多个领域提供更广泛的应用。
2、推动人机协作
Gemini Robotics的自然语言交互能力和实时响应特性,使其能够与人类无缝协作。例如,在工厂中,机器人可以理解工人的指令并协助完成复杂任务,提高生产效率。
3、加速人形机器人落地
谷歌与多家机器人公司合作,包括Apptronik和Boston Dynamics,旨在将Gemini Robotics应用于人形机器人,使其具备更接近人类的灵活性和适应性。这将为人形机器人的商业化和普及化铺平道路。
4、安全与伦理考量
谷歌强调,Gemini Robotics的安全性是开发过程中的重要考量。通过与安全控制器的交互,模型能够判断潜在动作的安全性,并生成合适的响应。此外,谷歌还发布了新的数据集ASIMOV,以评估和提升机器人的语义安全性。