蚂蚁灵波开源LingBot-World:国产世界模型实现10分钟无损生成与毫秒级交互

近日,蚂蚁集团旗下具身智能公司蚂蚁灵波科技宣布全面开源世界模型LingBot-World。该模型在视频质量、动态程度、长时一致性及交互能力等核心指标上对标谷歌Genie 3,实现近10分钟连续稳定生成、16FPS实时交互及毫秒级响应,为具身智能、自动驾驶和游戏开发提供高保真"数字演练场"。

一、打破"长时漂移"难题:实现近10分钟连续稳定生成

视频生成领域长期面临"长时漂移"困境——随着生成时长增加,物体变形、细节塌陷、主体消失等问题频发。LingBot-World通过多阶段训练策略与并行化加速架构,成功实现近10分钟的连续稳定无损生成,为长序列、多步骤复杂任务训练提供可靠支撑。
在官方压力测试中,即便镜头移开长达60秒后返回,场景中的车辆、房屋等核心物体仍能保持结构与外观的高度一致性。 这一突破意味着模型具备"持久记忆"能力,智能体即使在未被观察时也能持续行动,确保视角回归时世界状态自然推进。蚂蚁灵波开源lingbot World:国产世界模型实现10分钟无损生成与毫秒级交互

二、毫秒级实时交互:16FPS吞吐与1秒延迟的技术突破

交互性能是世界模型实用化的关键门槛。LingBot-World实现约16FPS的生成吞吐,并将端到端交互延迟控制在1秒以内,用户可通过键盘、鼠标实时控制角色与相机视角,画面随指令即时反馈,体验堪比3A游戏大作。
更值得关注的是其Zero-shot泛化能力——仅需输入一张真实照片或游戏截图,模型即可生成可交互的视频流,无需针对单一场景进行额外训练或数据采集。 用户还可通过自然语言实时改变环境,如"前面放个烟花""变成冰雪世界"等指令,模型能在保持场景几何关系一致的前提下完成动态变化。蚂蚁灵波开源lingbot World:国产世界模型实现10分钟无损生成与毫秒级交互

三、开源生态布局:从"生成"到"模拟"的AGI路径

LingBot-World的发布标志着蚂蚁灵波完成"灵波"系列三连发——此前已开源空间感知模型LingBot-Depth和具身大模型LingBot-VLA。业内人士指出,这标志着蚂蚁AGI战略实现从数字世界到物理感知的关键延伸,"基础模型-通用应用-实体交互"的全栈路径已然清晰。与许多闭源方案不同,蚂蚁灵波选择全面开源代码和模型权重,且不绑定特定硬件或平台。 模型采用混合数据引擎,结合网络视频清洗与虚幻引擎合成数据,从游戏环境中学习物理规律与因果关系,涌现出对空间关系、时间连续性和基础物理机制的理解能力。目前,LingBot-World模型权重及推理代码已在Hugging Face、ModelScope等平台面向全球开发者开放。蚂蚁灵波开源lingbot World:国产世界模型实现10分钟无损生成与毫秒级交互

AD:精心整理了2000+好用的AI工具!点此获取

相关推荐

1 1

免费AI工具合集,点击进入

AI对话

玉米AI助手