实测豆包Seed-Audio 1.0音频生成模型：一段剧本直出广播剧级音频

2026年6月23日，火山引擎在FORCE原动力大会上正式发布豆包音频生成模型1.0（Seed-Audio 1.0），与此前发布的语音合成模型不同，这次升级完成了从"配音工具"到"声音导演"的质变。实测发现，一段剧本输入，模型即可直出包含人声、情绪、音效、配乐的完整广播剧级音频。

豆包SeedAudio1.0音频生成

一、从语音合成到音频生成：核心功能升级

豆包此次发布的Seed-Audio 1.0，最大的升级在于实现了全要素直出——不再是逐句合成语音后再拼装，而是在一次生成中同步编排角色对白、情绪语气、方言口音、背景音乐及拟音特效。这意味着创作者只需写好一段场景描述，就能直接获得完整的音频成品。

模型还支持多模态参考生成，用户可以将文本、图片、音频任意组合作为参考输入，系统端到端生成目标音频。例如上传一段早期版本的音频作为参考，即可让新生成的音频保持相同的音色和风格，实现无缝续写。

在长程音色一致性方面，Seed-Audio 1.0单次可生成2分钟高质量音频，且支持以已有片段为参考持续延展。测试表明，在有声书、播客等长音频创作场景中，模型能保持多角色音色高度统一，大幅减少后期修音工作。

二、实测体验：一段剧本直出广播剧级效果

在实际体验中，Seed-Audio 1.0的表现令人印象深刻。以一段三人漫剧本子为例：旁白（青年男性，低沉醇厚的国风漫剧腔）、长老（老年男性，苍老沙哑带有轻蔑感）、少年（清亮带怒气），仅凭一段Prompt即可一次性生成包含古筝、大鼓、弦乐、脚步摩擦、灵剑出鞘、人群哄笑等完整音效的音频作品，无需分层生成后手动拼接。

更令人惊叹的是场景空间一致性——多个角色在同一场景中的对话自然流畅，不再是各自单独录音再合成的割裂感。在测试世界杯解说场景时，模型成功模拟了人声在前、现场声音在后、背景人群声铺底的层次感，解说员情绪随赛事节奏起伏，接近真实的转播效果。

就连四川方言这样的地方口音，Seed-Audio 1.0也表现出色。测试中，成都老街傍晚饭点的场景——钵钵鸡摊子、老婆婆招呼客人、油锅滋啦声、小孩奔跑——栩栩如生，细节令人惊叹。

三、音频创作的"Seedance时刻"

去年的Seedance 2.0让一个人可以做出接近影视成片的视频，而豆包音频生成模型1.0则让一个人可以做出接近成片级的声音。这种变化不仅体现在技术能力上，更体现在工作流程的革新上。

以往一项完整的音频制作需要配音演员、音效师、混音师多人协作，而现在创作者只需把"谁在说、什么情绪、什么场景、该有什么声响"写清楚，就能直接获得可交付的成品。虽然部分复杂场景下的拟音和音效仍有细小瑕疵，但整体表现力已经达到改写AI音频工作流的水准。

有媒体评价称，这是语音模型的"Seedance 2.0时刻"，标志着AI音频生成从辅助工具走向了独立创作工具的新阶段。对于内容创作者、影视制作团队、有声书制作方和播客主播来说，这无疑是一个效率与质量的双重跃进。

AD：精心整理了2000+好用的AI工具！点此获取

实测豆包Seed-Audio 1.0音频生成模型：一段剧本直出广播剧级音频

一、从语音合成到音频生成：核心功能升级

二、实测体验：一段剧本直出广播剧级效果

三、音频创作的"Seedance时刻"

夸克高考助力学子志愿填报：8年服务1.6亿考生

OpenAI Codex个人用户用量暴增137倍，AI编程已走出程序员圈子

玉米AI助手

实测豆包Seed-Audio 1.0音频生成模型：一段剧本直出广播剧级音频

一、从语音合成到音频生成：核心功能升级

二、实测体验：一段剧本直出广播剧级效果

三、音频创作的"Seedance时刻"

夸克高考助力学子志愿填报：8年服务1.6亿考生

OpenAI Codex个人用户用量暴增137倍，AI编程已走出程序员圈子

相关推荐

玉米AI助手

搜索

实测豆包Seed-Audio 1.0音频生成模型：一段剧本直出广播剧级音频

实测豆包Seed-Audio 1.0音频生成模型：一段剧本直出广播剧级音频