可灵O1全量上线：全球首个统一多模态视频大模型

2025年12月2日，可灵AI公司宣布其自主研发的可灵O1视频大模型正式全量上线。该模型采用MVL统一交互架构，支持文字、图像、视频三种指令输入，并能一次性完成文生视频、图生视频、局部编辑及镜头延展任务。此外，模型通过多视角主体构建技术解决镜头切换时的“特征漂移”问题，确保画面连贯。目前，O1模型已在可灵App及官网同步开放体验，后续将开放API接口供第三方平台集成。

（一）技术创新：多模态交互与深度语义理解

可灵O1视频大模型是全球首个统一多模态视频大模型。它引入了MVL（多模态视觉语言）交互架构，将文字、图像、视频三种指令融合在单一输入框内。结合Chain-of-Thought技术，模型具备强大的常识推理与事件推演能力。这意味着用户可以通过简单的对话指令，完成复杂的视频生成和编辑任务。

（二）功能突破：解决行业痛点，提升创作效率

O1模型通过多视角主体构建技术，彻底解决了视频中人物或物体在镜头切换时“特征漂移”的行业难题。无论镜头如何流转，主体特征都能稳定如一，确保多主体场景下画面精准连贯。此外，O1支持3–10秒自由生成时长，把叙事节奏的控制权交还创作者。无论是短视频博主、广告团队还是个人用户，都能快速产出高质量、高一致性的创意视频。可灵o1全量上线：全球首个统一多模态视频大模型

（三）应用拓展：开放API接口，赋能更多场景

目前，可灵O1模型已在可灵App及官网同步开放体验。公司透露，后续将开放API接口，供第三方平台集成。这一举措将为影视、自媒体、广告电商等应用场景，提供深度适配的一站式解决方案。行业分析师认为，O1的上线或进一步降低AI视频制作门槛，但能否在生成质量与成本效率之间取得平衡，仍有待市场检验。可灵o1全量上线：全球首个统一多模态视频大模型