Maya1 是一款 30 亿参数的开源实时文本转语音模型,可仅凭单张 GPU 生成高表现力、多情感的自然语音。
Hume AI Voice Conversion:一次录音即可把“声音灵魂”完整移植到任意目标声线,实现带情感的跨语言、跨性别、跨风格语音转换。
MiniMax Speech 2.6 是 MiniMax 推出的超低延迟、可一键复刻任意音色的实时语音合成引擎,让机器开口“像人”一样自然。
SoulX-Podcast是Soul推出的超长时长、高保真多语言AI播客生成引擎,可一键产出90分钟无中断、媲美真人录音的播客节目。
Xiaomi-MiMo-Audio 是小米开源的首个原生端到端语音大模型,基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于 ICL 的少样本泛化。
FireRedTTS-2 是小红书智创音频技术团队推出的新一代对话合成模型,可实现灵活的逐句生成和高质量的语音合成。
Stable Audio 2.5 是 Stability AI 推出的最新音频生成模型,可在几秒内生成高质量、多段落结构的音乐,支持文本转音频、音频修复等多种创作方式。
Copilot Audio 是微软基于自研 MAI-Voice-1 模型推出的全新音频模式,支持情感、故事、脚本三种语音风格,带来更具表现力和沉浸感的语音交互体验。
Infinite Talk 是一个由 MeiGen-ai 研发小组开源的数字人项目,能够生成无限长度的视频,具有准确的口型同步和一致的身份保留。
GPT-realtime 是 OpenAI发布的语音到语音模型,能够通过单个模型和 API 处理从音频输入到音频输出的全流程,为语音交互带来革命性突破。
腾讯ARC团队推出的AudioStory模型,能够根据文字描述生成高质量的音频内容,具有强大的叙事能力。
阶跃星辰发布的Step-Audio2mini是一款开源的端到端语音大模型,能够实现语音理解、音频推理与生成的统一建模。
国内首个具备端到端语音同传能力的大模型,其同传速度与精度直逼人类专家。
Lingo语音大模型是西湖心辰推出的具备实时打断和控制能力的超拟人化语音交互系统,旨在重塑沟通的艺术。
Maya1 是一款 30 亿参数的开源实时文本转语音模型,可仅凭单张 GPU 生成高表现力、多情感的自然语音。