在人工智能技术的推动下,视频内容创作正迎来一场革命。字节跳动公司最近发布的两款AI视频生成大模型——豆包PixelDance和豆包Seaweed,标志着视频生成技术迈入了一个新的发展阶段。
豆包PixelDance模型是基于DiT(Dynamic Integration Transformer)架构开发的,它能够理解和执行复杂的指令,实现多个主体间的交互,并能在视频主体的大动态和镜头间进行炫酷切换。这项技术特别擅长处理多镜头切换时的内容一致性,能够在10秒内讲述一个完整的故事,并支持多种风格和比例,如黑白、3D动画、国画等。
豆包Seaweed模型则基于Transformer结构,利用时空压缩的潜空间进行训练,原生支持多分辨率生成,适配横屏、竖屏,并能够根据用户输入的高清图像分辨率进行适配和保真。默认输出为720p分辨率、24fps、时长5秒,并可动态延长至20-30秒。
这两款模型的发布,不仅展示了字节跳动在AI领域的技术实力,也为视频内容创作提供了更多可能性。它们能够广泛应用于电商营销、动画教育、城市文旅、微剧本(音乐MV、微电影、短剧等)等多个领域,预计将为这些领域带来创新和效率的提升。
此外,豆包大模型的使用量也在极速增长,显示出市场对这项技术的高度认可。截至2024年9月,豆包语言模型的日均tokens使用量超过1.3万亿,相比5月首次发布时猛增十倍。
随着这些新模型的推出,视频生成的门槛被大幅降低,创作者可以更加专注于创意和故事叙述,而不必担心技术实现的细节。这不仅能够提升内容创作的效率,还能够推动整个视频产业的创新和发展。字节跳动的这一举措,无疑将对AI视频生成领域产生深远的影响。