实测豆包Seed-Audio 1.0音频生成模型:一段剧本直出广播剧级音频

2026年6月23日,火山引擎在FORCE原动力大会上正式发布豆包音频生成模型1.0(Seed-Audio 1.0),与此前发布的语音合成模型不同,这次升级完成了从"配音工具"到"声音导演"的质变。实测发现,一段剧本输入,模型即可直出包含人声、情绪、音效、配乐的完整广播剧级音频。

豆包SeedAudio1.0音频生成

一、从语音合成到音频生成:核心功能升级

豆包此次发布的Seed-Audio 1.0,最大的升级在于实现了全要素直出——不再是逐句合成语音后再拼装,而是在一次生成中同步编排角色对白、情绪语气、方言口音、背景音乐及拟音特效。这意味着创作者只需写好一段场景描述,就能直接获得完整的音频成品。

模型还支持多模态参考生成,用户可以将文本、图片、音频任意组合作为参考输入,系统端到端生成目标音频。例如上传一段早期版本的音频作为参考,即可让新生成的音频保持相同的音色和风格,实现无缝续写。

长程音色一致性方面,Seed-Audio 1.0单次可生成2分钟高质量音频,且支持以已有片段为参考持续延展。测试表明,在有声书、播客等长音频创作场景中,模型能保持多角色音色高度统一,大幅减少后期修音工作。

二、实测体验:一段剧本直出广播剧级效果

在实际体验中,Seed-Audio 1.0的表现令人印象深刻。以一段三人漫剧本子为例:旁白(青年男性,低沉醇厚的国风漫剧腔)、长老(老年男性,苍老沙哑带有轻蔑感)、少年(清亮带怒气),仅凭一段Prompt即可一次性生成包含古筝、大鼓、弦乐、脚步摩擦、灵剑出鞘、人群哄笑等完整音效的音频作品,无需分层生成后手动拼接。

更令人惊叹的是场景空间一致性——多个角色在同一场景中的对话自然流畅,不再是各自单独录音再合成的割裂感。在测试世界杯解说场景时,模型成功模拟了人声在前、现场声音在后、背景人群声铺底的层次感,解说员情绪随赛事节奏起伏,接近真实的转播效果。

就连四川方言这样的地方口音,Seed-Audio 1.0也表现出色。测试中,成都老街傍晚饭点的场景——钵钵鸡摊子、老婆婆招呼客人、油锅滋啦声、小孩奔跑——栩栩如生,细节令人惊叹。

三、音频创作的"Seedance时刻"

去年的Seedance 2.0让一个人可以做出接近影视成片的视频,而豆包音频生成模型1.0则让一个人可以做出接近成片级的声音。这种变化不仅体现在技术能力上,更体现在工作流程的革新上。

以往一项完整的音频制作需要配音演员、音效师、混音师多人协作,而现在创作者只需把"谁在说、什么情绪、什么场景、该有什么声响"写清楚,就能直接获得可交付的成品。虽然部分复杂场景下的拟音和音效仍有细小瑕疵,但整体表现力已经达到改写AI音频工作流的水准。

有媒体评价称,这是语音模型的"Seedance 2.0时刻",标志着AI音频生成从辅助工具走向了独立创作工具的新阶段。对于内容创作者、影视制作团队、有声书制作方和播客主播来说,这无疑是一个效率与质量的双重跃进。

AD:精心整理了2000+好用的AI工具!点此获取

相关推荐

1 1

免费AI工具合集,点击进入

AI对话

玉米AI助手