长视频时代来了!超越Sora,120秒超长AI视频模型StreamingT2V诞生 附项目介绍地址

长视频时代要来了!超越sora极限,120秒超长ai视频模型streamingt2v诞生
在人工智能领域,生成连贯且内容丰富的视频一直是挑战之一。最近,由Picsart AI Research、UT Austin和Shi Labs的研究团队提出了名为StreamingT2V的新技术,这一技术的出现标志着文生视频技术正式进入长视频时代。
据悉,StreamingT2V能够生成长达1200帧,即相当于2分钟的长视频,而且视频内容的过渡自然平滑,动作幅度丰富多样。这一成果不仅在技术上取得了突破,而且在实际应用中也展现出了巨大的潜力。
该技术的核心在于三个关键组件:条件注意力模块(CAM)、外观保持模块(APM)和随机混合技术。CAM作为短期记忆单元,通过关注前一个视频片段的特征来引导当前片段的生成,确保视频的连贯性。APM则作为长期记忆单元,帮助模型记住视频开头的场景和对象,防止随着时间推移而遗忘。随机混合技术则确保即使是无限长的视频也能保持一致性,避免了视频片段之间的不协调。
StreamingT2V的另一个显著特点是其不限定于使用特定的文生视频模型,这意味着随着基础模型性能的不断提升,生成的视频效果还有进一步提升的空间。
在实际效果展示中,StreamingT2V生成的视频无论是在动态效果还是内容一致性上,都表现出色。从航拍镜头的自然运动到蜜蜂在花上的逼真动作,再到圣诞老人的滑稽舞蹈,StreamingT2V都能生成高质量的视频内容。
StreamingT2V的工作流程分为三个阶段:初始化阶段生成视频的前16帧,Streaming T2V阶段通过自回归技术生成后续帧,最后在Streaming Refinement阶段对视频进行优化。这一过程中,CAM和APM两个模块的结合使得视频不仅连贯自然,而且画质和动态效果得到显著提升。
在评估方面,研究人员采用了多个指标来衡量视频的时间一致性、文本对齐和每帧质量。结果显示,StreamingT2V在这些方面的表现均优于现有的视频生成模型。
StreamingT2V的出现为长视频内容的生成提供了新的可能性,无论是在技术研究还是实际应用中,都有着重要的意义。随着技术的不断进步,未来我们将能看到更多由AI生成的精彩长视频内容。
项目介绍地址:https://streamingt2v.github.io/

AD:精心整理了2000+好用的AI工具!点此获取

相关推荐

1 1

免费AI工具合集,点击进入

AI对话

玉米AI助手