2025年12月2日,可灵AI公司宣布其自主研发的可灵O1视频大模型正式全量上线。该模型采用MVL统一交互架构,支持文字、图像、视频三种指令输入,并能一次性完成文生视频、图生视频、局部编辑及镜头延展任务。此外,模型通过多视角主体构建技术解决镜头切换时的“特征漂移”问题,确保画面连贯。目前,O1模型已在可灵App及官网同步开放体验,后续将开放API接口供第三方平台集成。
(一)技术创新:多模态交互与深度语义理解
可灵O1视频大模型是全球首个统一多模态视频大模型。它引入了MVL(多模态视觉语言)交互架构,将文字、图像、视频三种指令融合在单一输入框内。结合Chain-of-Thought技术,模型具备强大的常识推理与事件推演能力。这意味着用户可以通过简单的对话指令,完成复杂的视频生成和编辑任务。
(二)功能突破:解决行业痛点,提升创作效率
O1模型通过多视角主体构建技术,彻底解决了视频中人物或物体在镜头切换时“特征漂移”的行业难题。无论镜头如何流转,主体特征都能稳定如一,确保多主体场景下画面精准连贯。此外,O1支持3–10秒自由生成时长,把叙事节奏的控制权交还创作者。无论是短视频博主、广告团队还是个人用户,都能快速产出高质量、高一致性的创意视频。
(三)应用拓展:开放API接口,赋能更多场景
目前,可灵O1模型已在可灵App及官网同步开放体验。公司透露,后续将开放API接口,供第三方平台集成。这一举措将为影视、自媒体、广告电商等应用场景,提供深度适配的一站式解决方案。行业分析师认为,O1的上线或进一步降低AI视频制作门槛,但能否在生成质量与成本效率之间取得平衡,仍有待市场检验。


