百度商业研发团队于2025年7月2日正式发布了其自主研发的视频生成模型MuseSteamer,该模型是全球首个实现中文音视频一体化生成的视频模型。
一、主要功能
MuseSteamer支持一张图生成10秒1080p电影级画质视频,人物微表情与运镜效果达到专业影视水准。它能够实现画面与音效、人声台词的协同创作,打破传统AIGC视频“先画面后配音”的割裂流程。此外,MuseSteamer还具备强大的可控性,能够根据用户输入的文本指令或参考图像生成高度符合要求的视频内容。
二、技术原理
MuseSteamer采用DIT架构,参数规模与业界最大的视频生成模型相当。其核心能力源于亿级中文多模态数据清洗、精细化视频结构化描述语言,以及多目标强化学习等技术优化。此外,该模型构建了亿级规模中文多模态数据库,通过“筛选-净化-配比”三级优化体系,实现业界领先的文本指令与视觉元素的语义对齐精度。
三、应用场景
MuseSteamer的应用场景非常广泛,主要包括以下几个方面:
-
广告创作:帮助广告商快速生成富有创意和吸引力的视频广告,降低拍摄成本。
-
影视制作:为影视创作者提供高效、专业的智能化解决方案,支持从普通创作者到专业影视机构的多样化需求。
-
内容创作:普通用户可以通过该模型轻松生成动态视频作品,激发创意。
四、使用方法
用户可以通过百度推出的“绘想”平台使用MuseSteamer。目前,MuseSteamer的Turbo版已上线“绘想”平台并开启限时免费公测,用户只需上传一张图片,即可生成动态视频。其余版本预计将于2025年8月陆续开放。
五、适用人群
MuseSteamer适用于以下人群:
-
广告代理商和广告主:快速生成广告视频,满足商业需求。
-
影视创作者:包括专业影视机构和个人创作者,用于制作高质量的视频内容。
-
普通用户:希望通过简单操作生成有趣视频的用户。
六、优缺点介绍
优点
-
高效生成:能够快速生成高质量的视频内容,大大缩短创作时间。
-
音视频一体化:支持画面、音效和人声台词的协同创作,提升视频的完整性和艺术表现力。
-
高性价比:Turbo版限时免费公测,未来其他版本也具有较高的性价比。
-
专业效果:生成的视频在画质和运镜上达到专业影视水准。
缺点
-
功能限制:目前仅支持生成10秒以内的视频,对于更长视频的需求可能无法满足。
-
使用门槛:虽然操作简单,但对于一些不熟悉AI技术的用户来说,可能需要一定时间来适应。
分类标签
视频生成、人工智能、广告创作、影视制作、内容创作

CAP4D是一个能够利用任意数量的参考图像创建逼真4D化身的工具。