
- 主要功能
1.1 长时稳定视频生成:针对行业常见的 “长时漂移” 问题,该模型借助多阶段训练和并行化加速策略,可实现近 10 分钟的连续稳定无损视频生成。在压力测试中,镜头移开 60 秒后返回,场景核心物体的结构与外观仍能保持一致。
1.2 实时交互操控:能达成约 16FPS 的生成吞吐,端到端交互延迟控制在 1 秒以内。用户通过键盘、鼠标可实时控制角色和相机视角,也能通过文本指令触发天气调整、画面风格改变等环境变化,且场景几何关系基本保持不变。
1.3 零样本泛化生成:无需针对单一场景额外训练,仅输入一张真实城市街景照片或游戏截图,就能生成对应的可交互视频流,大幅降低不同场景下的部署使用成本。
1.4 物理规律精准模拟:摆脱了随机的 “幻觉” 式生成,可通过动作驱动生成符合物理真实感的动态场景。比如能精准模拟鸭子蹬水时的动作、水面对扰动的响应等符合流体力学的场景,智能体运动也遵循空间逻辑,不会出现穿透物体等不合理情况。
- 技术原理
2.1 混合数据采集策略:为解决高质量交互数据匮乏问题,一方面清洗大规模网络视频以覆盖多样场景;另一方面结合游戏采集与虚幻引擎合成管线,从渲染层提取无 UI 干扰的纯净画面,同时记录操作指令和相机位姿,为模型提供精准对齐的训练数据,助力其学习动作与环境变化的关联。
2.2 多阶段训练与并行化加速:通过该特殊训练和加速方式,攻克视频生成的 “长时漂移” 难题,保障长时序生成过程中场景、物体的稳定性,实现长时间连续无损生成。
2.3 物理与因果关系学习:从大规模游戏环境中学习物理规律和因果关系,不仅能记住视觉表象,还能理解空间关系、时间连续性等,进而让生成的场景和智能体行为符合物理合理性和因果逻辑。
- 应用场景
3.1 具身智能训练:为具身智能提供低成本、高保真的试错空间,可支撑智能体进行场景理解和长程任务执行训练,且能通过生成多样化场景,提升具身智能算法在真实场景的泛化能力。
3.2 游戏开发领域:能生成风格多样的游戏场景,开发者可借助其快速构建可交互的虚拟游戏世界,还能通过指令调整游戏内环境和事件,降低游戏场景开发的成本与周期。
3.3 内容创作领域:可用于生成 photorealistic 景观、科学可视化内容、风格化艺术场景等各类视频素材,满足影视、广告、动画等行业的内容创作需求。
3.4 自动驾驶仿真:能构建接近真实路况的动态交通场景,为自动驾驶算法的训练和测试提供安全、可重复的仿真环境,减少真机测试的风险和成本。
- 使用方法
4.1 获取相关资源:用户可通过蚂蚁灵波科技官方网站或指定的 GitHub 仓库,获取 LingBot-World 的开源代码和模型权重。
4.2 基础交互操作:利用键盘的 W、A、S、D 等按键或鼠标,就能导航和操控生成的动态环境,实现角色移动、视角切换等基础交互动作。
4.3 指令触发操作:输入文本指令,可触发特定的环境变化和世界事件,比如将卡通风格场景改为写实风格,或是在场景中生成一场降雨等,无需复杂的编程操作即可完成场景调整。
4.4 场景拓展操作:输入单张真实照片或游戏截图,模型会自动零样本生成对应的可交互视频流,快速拓展新的模拟场景。
- 适用人群
5.1 具身智能科研人员:可借助该模型开展智能体相关的算法研究与训练,降低真机训练的成本和难度。
5.2 游戏开发人员:能利用其快速构建和调整游戏虚拟场景,提升游戏开发效率,适配不同风格游戏的场景制作需求。
5.3 内容创作从业者:涵盖影视、广告、动画等领域创作者,可通过其生成多样化视频素材,丰富创作形式并降低素材制作门槛。
5.4 人工智能领域研究者:尤其是专注于世界模型、计算机视觉、机器学习方向的科研人员,可基于其开源的代码和模型,探索世界模型的更多技术可能性。
- 优缺点介绍
6.1 优点:开源且不绑定特定硬件或平台,方便开发者和研究者获取使用并二次开发;长时序生成能力突出,近 10 分钟的连续稳定生成远超同类多数模型;交互延迟低,1 秒内的响应速度能带来流畅的操控体验;具备零样本泛化能力,大幅降低多场景部署成本;生成场景和动作符合物理规律与因果逻辑,保真度高。
6.2 缺点:长时生成仍存在细节瑕疵,比如在接近十分钟的长视频后期,可能出现建筑位置关系混乱、建筑消失等问题;作为开源的世界模型,其在超复杂场景(如大规模城市级精细化场景)的持续稳定性和细节还原度,可能还需进一步优化。
图像到视频生成模型,能够从单张照片生成1K分辨率的多视角高清人像视频。