MiniMax发布新一代语音大模型，性能与性价比双突破

近日，AI独角兽MiniMax稀宇极智发布了新一代语音大模型Speech-02。该模型在国际权威的两项语音评测榜单Artificial Analysis和Hugging Face TTS Arena上，超越了OpenAI、ElevenLabs等国际巨头，登上双榜榜首。这一突破不仅标志着我国在AI语音生成领域已跻身国际领先行列，也展现了国产大模型在技术创新和商业应用上的强大潜力。

一、技术指标全面领先

Speech-02在语音模型的核心技术指标上取得了显著优势。在字错率（WER）和相似度（SIM）等关键指标上，Speech-02均达到了SOTA（当前最佳技术）水平。与Seed-TTS、CosyVoice 2等竞品相比，Speech-02在中英文零样本语音克隆中实现了更低的字错率，表明其发音更清晰稳定。此外，Speech-02在所有24种测试语言中的相似度表现也显著优于ElevenLabs的multilingual_v2模型，生成的语音更接近真人输出。
Minimax发布新一代语音大模型，性能与性价比双突破

二、多语言与个性化支持

Speech-02支持粤语、葡萄牙语、法语等32个语种，并且可以在同一段语音中实现多个语种间的自如切换。此外，该模型还具备强大的个性化功能，通过“文生音”功能，用户可以输入自然语言文本描述来生成符合描述的音色。同时，Speech-02还支持“声音参考”功能，能够对任意给定语音进行灵活控制，实现感情、语速、音高、语种等无缝切换。
Minimax发布新一代语音大模型，性能与性价比双突破

三、高性能与极致性价比

Speech-02不仅在性能上表现出色，其商用定价仅为全球头部语音模型ElevenLabs的四分之一。这一极具竞争力的定价策略，大幅降低了企业采用先进语音AI技术的门槛，推动了国产AI语音技术的大规模商业化落地。目前，MiniMax已在文旅导览、金融服务、语音助手、AI教育等领域提供了成熟的应用服务，并与国内外多家知名企业达成了深度合作。
Minimax发布新一代语音大模型，性能与性价比双突破

四、技术创新与架构优化

Speech-02采用了基于Flow-VAE架构的流匹配模型，能够更准确地捕捉语音数据中的复杂模式。此外，该模型还引入了T2V框架，将开放式自然语言描述与结构化标签信息相结合，从而实现高度灵活且可控的音色生成。这些技术创新使得Speech-02不仅能够模仿声音的“形”，还能复现声音的“神”，为用户带来更自然、真实的语音体验。
Minimax发布新一代语音大模型，性能与性价比双突破

AD：精心整理了2000+好用的AI工具！点此获取

MiniMax发布新一代语音大模型，性能与性价比双突破

一、技术指标全面领先

二、多语言与个性化支持

三、高性能与极致性价比

四、技术创新与架构优化

GPT-5：将Openai多款产品整合为一体？这还了得！

苹果全球开发者大会 2025：科技盛宴即将开启

玉米AI助手

MiniMax发布新一代语音大模型，性能与性价比双突破

一、技术指标全面领先

二、多语言与个性化支持

三、高性能与极致性价比

四、技术创新与架构优化

GPT-5：将Openai多款产品整合为一体？这还了得！

苹果全球开发者大会 2025：科技盛宴即将开启

相关推荐

玉米AI助手

搜索

MiniMax发布新一代语音大模型，性能与性价比双突破

MiniMax发布新一代语音大模型，性能与性价比双突破