2026年初,宇树科技宣布开源专为通用人形机器人设计的视觉-语言-动作(VLA)大模型UnifoLM-VLA-0。该模型突破传统机器人"图文理解"的局限,首次赋予人形机器人对物理世界交互规律的深层认知能力,标志着具身智能从"感知智能"向"认知智能"跨越的关键转折。这一开源举措不仅填补了国内人形机器人基础模型的空白,更为全球开发者提供了可复用的"物理常识"引擎。
(一)技术突破:从"看懂指令"到"理解物理"
UnifoLM-VLA-0的核心创新在于其"物理常识"预训练机制。通过在百万级机器人操作数据上的深度训练,模型不仅理解"拿起杯子"的语义指令,更能认知"杯子盛水不能倾斜""易碎品需轻拿轻放"等物理规律。这种能力源于模型对文本指令与2D/3D空间细节的深度融合——不同于传统VLA模型仅处理平面图像,UnifoLM-VLA-0同时解析深度相机点云数据与视觉语言信息,构建起包含物体质量、摩擦系数、空间约束的物理场景表征。在复杂光照、遮挡环境下,其空间感知准确率较传统方案提升40%以上,为人形机器人在非结构化场景中的稳定作业奠定基础。
(二)架构创新:长时序动作的统一建模
针对人形机器人高自由度、长周期任务的技术难点,UnifoLM-VLA-0集成了动作分块预测(Action Chunking)与动力学约束双机制。动作分块技术将长达数分钟的连续操作分解为若干具有物理意义的子动作单元,既保证动作流畅性又降低计算复杂度;而内置的动力学约束模块则实时校验动作轨迹的可行性,避免机器人因力矩超限或重心失衡而跌倒。这种架构实现了对长时序动作序列的统一建模,使模型在"打开抽屉-取出工具-拧紧螺丝"等多步骤任务中,成功率达到82.3%,较分步执行方案提升35%。
(三)开源生态:降低具身智能创新门槛
宇树此次开源采用Apache 2.0协议,完整释放模型权重、训练代码及百万级机器人操作数据集。这一决策具有显著战略意义:一方面,通过开源快速建立开发者生态,吸引全球研究者基于UnifoLM-VLA-0进行二次开发;另一方面,以"物理常识"为核心差异化能力,与蚂蚁LingBot-VLA(侧重双臂操作泛化)、智元启元GO-1(侧重端云协同)形成互补格局。业内分析指出,随着宇树、蚂蚁等中国企业相继开源VLA基座模型,2025年已成为具身智能"开源元年",人形机器人产业正从"硬件竞赛"转向"模型+数据"的生态竞争,加速迈向通用人工智能的物理载体时代。


