近日,AI独角兽MiniMax稀宇极智发布了新一代语音大模型Speech-02。该模型在国际权威的两项语音评测榜单Artificial Analysis和Hugging Face TTS Arena上,超越了OpenAI、ElevenLabs等国际巨头,登上双榜榜首。这一突破不仅标志着我国在AI语音生成领域已跻身国际领先行列,也展现了国产大模型在技术创新和商业应用上的强大潜力。
一、技术指标全面领先
Speech-02在语音模型的核心技术指标上取得了显著优势。在字错率(WER)和相似度(SIM)等关键指标上,Speech-02均达到了SOTA(当前最佳技术)水平。与Seed-TTS、CosyVoice 2等竞品相比,Speech-02在中英文零样本语音克隆中实现了更低的字错率,表明其发音更清晰稳定。此外,Speech-02在所有24种测试语言中的相似度表现也显著优于ElevenLabs的multilingual_v2模型,生成的语音更接近真人输出。
二、多语言与个性化支持
Speech-02支持粤语、葡萄牙语、法语等32个语种,并且可以在同一段语音中实现多个语种间的自如切换。此外,该模型还具备强大的个性化功能,通过“文生音”功能,用户可以输入自然语言文本描述来生成符合描述的音色。同时,Speech-02还支持“声音参考”功能,能够对任意给定语音进行灵活控制,实现感情、语速、音高、语种等无缝切换。
三、高性能与极致性价比
Speech-02不仅在性能上表现出色,其商用定价仅为全球头部语音模型ElevenLabs的四分之一。这一极具竞争力的定价策略,大幅降低了企业采用先进语音AI技术的门槛,推动了国产AI语音技术的大规模商业化落地。目前,MiniMax已在文旅导览、金融服务、语音助手、AI教育等领域提供了成熟的应用服务,并与国内外多家知名企业达成了深度合作。
四、技术创新与架构优化
Speech-02采用了基于Flow-VAE架构的流匹配模型,能够更准确地捕捉语音数据中的复杂模式。此外,该模型还引入了T2V框架,将开放式自然语言描述与结构化标签信息相结合,从而实现高度灵活且可控的音色生成。这些技术创新使得Speech-02不仅能够模仿声音的“形”,还能复现声音的“神”,为用户带来更自然、真实的语音体验。