近日 昆仑万维旗下SkyReels团队正式发布并开源了全球首个采用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型SkyReels-V2。这一创新模型的推出,标志着视频生成技术迈入了“无限时长、影视级质量、精准控制”的全新阶段。
一、技术创新:突破视频生成的多重限制
SkyReels-V2通过结合多模态大语言模型(MLLM)、多阶段预训练、强化学习和扩散强迫框架,实现了协同优化。该模型解决了现有技术在提示词遵循、视觉质量、运动动态和视频时长协调上的痛点。其核心技术创新包括:
影视级视频理解模型SkyCaptioner-V1:能够识别视频中的主体、表情和动作等信息,提升镜头语言理解。
高效的扩散强迫框架:通过非递减噪声时间表,将连续帧的去噪时间表搜索空间大幅降低,从而实现长视频的高效生成。
渐进式分辨率预训练与多阶段后训练优化:整合了自收集媒体、通用数据集和艺术资源库,确保生成内容的视觉质量达到专业标准。
二、卓越性能:高质量视频生成的典范
在SkyReels-Bench和V-Bench的评估中,SkyReels-V2表现卓越。其总分达到83.9%,质量分达到84.7%,超过包括华为轩辕视频模型在内的所有对比模型。该模型能够生成30-40秒的高运动质量、高一致性、高保真视频。
三、丰富应用场景:赋能多领域创作
SkyReels-V2支持多种应用场景,包括:
故事生成:通过滑动窗口方法实现理论无限时长的故事视频生成。
图像到视频合成:提供两种生成方法,分别适用于不同的创作需求。
摄像导演功能:优化摄像机运动的流畅性和多样性。
多主体一致性视频生成(SkyReels-A2):支持多主体视频生成,保持主体和场景的高度一致性。
四、开源推动:助力行业进步
昆仑万维SkyReels团队将SkyCaptioner-V1和SkyReels-V2系列模型全部开源,涵盖多种尺寸和功能的模型,以促进学术界和产业界进一步探索视频生成技术的应用前景。