Maya1 是一款 30 亿参数的开源实时文本转语音模型,可仅凭单张 GPU 生成高表现力、多情感的自然语音。
Hume AI Voice Conversion:一次录音即可把“声音灵魂”完整移植到任意目标声线,实现带情感的跨语言、跨性别、跨风格语音转换。
MiniMax Speech 2.6 是 MiniMax 推出的超低延迟、可一键复刻任意音色的实时语音合成引擎,让机器开口“像人”一样自然。
SoulX-Podcast是Soul推出的超长时长、高保真多语言AI播客生成引擎,可一键产出90分钟无中断、媲美真人录音的播客节目。
Xiaomi-MiMo-Audio 是小米开源的首个原生端到端语音大模型,基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于 ICL 的少样本泛化。
FireRedTTS-2 是小红书智创音频技术团队推出的新一代对话合成模型,可实现灵活的逐句生成和高质量的语音合成。
IndexTTS-2.0 是哔哩哔哩开源的全球首个支持情感与时长双重控制的自回归零样本文本转语音系统,专为高质量AI配音与跨语言内容本地化打造。
Stable Audio 2.5 是 Stability AI 推出的最新音频生成模型,可在几秒内生成高质量、多段落结构的音乐,支持文本转音频、音频修复等多种创作方式。
Copilot Audio 是微软基于自研 MAI-Voice-1 模型推出的全新音频模式,支持情感、故事、脚本三种语音风格,带来更具表现力和沉浸感的语音交互体验。
Infinite Talk 是一个由 MeiGen-ai 研发小组开源的数字人项目,能够生成无限长度的视频,具有准确的口型同步和一致的身份保留。
GPT-realtime 是 OpenAI发布的语音到语音模型,能够通过单个模型和 API 处理从音频输入到音频输出的全流程,为语音交互带来革命性突破。
腾讯ARC团队推出的AudioStory模型,能够根据文字描述生成高质量的音频内容,具有强大的叙事能力。
阶跃星辰发布的Step-Audio2mini是一款开源的端到端语音大模型,能够实现语音理解、音频推理与生成的统一建模。
MAI-Voice-1 是微软推出的高保真语音生成模型,旨在为各种应用场景提供自然、富有情感的语音输出。
AudioStory是腾讯ARC实验室推出的一种能够根据文字描述生成高质量音频内容的技术,具有强大的叙事能力。
GPT-Realtime是OpenAI推出的一款强大的语音到语音模型,采用端到端Speech-to-Speech架构,能够直接生成并处理语音,省去常规的文本转换步骤,广泛应用于多种语音交互场景。
HunyuanVideo-Foley是腾讯混元团队开源的端到端视频音效生成模型,能够根据输入的视频内容和文字描述,自动生成与画面高度匹配的高质量音效,为视频创作带来沉浸式体验。
VibeVoice-1.5B 是微软开源的文本转语音(TTS)大模型,可一次性生成 90 分钟高保真、多人轮替的长篇语音,并达到 3200 倍超高音频压缩率。
DingTalk A1 是钉钉推出的 3.8 mm 超薄 AI 录音笔,通过蓝牙与钉钉 App 连接,即可在 8 米内高清收音并实时完成 97% 准确率的语音转写、多语言翻译和智能总结,为职场沟通与学习场景提供一站式语音记录与分析服务。
Fun-ASR是由钉钉与通义实验室联合发布的新一代语音识别大模型,旨在为企业提供更强大、灵活的语音转写能力。
Kitten TTS 是一款开源的轻量级文本转语音模型,具有仅1500万参数,专为轻量级部署和高质量语音合成设计。
万兴天幕AI是国内首个音视频多媒体大模型,依托海量数据和先进AI技术,为创作者提供全链路创作支持,助力高效生成高质量音视频内容。
Voxtral 是 Mistral 推出的首个开源音频模型,旨在为企业和开发者提供高性价比的语音智能解决方案。
IndexTTS2 通过“可指定 token 数”与“情感-音色解耦”两大创新,让零样本语音合成既能像非自回归模型一样精准对齐时长,又能像自回归模型一样自然生动。
Stable Audio Open Small 是一款由 Stability AI 与 Arm 合作推出的轻量级文本到音频生成模型,专为移动设备优化,能够在本地快速生成高质量音频。
11ai是ElevenLabs推出的一款以语音交互为核心的AI语音助理,支持多种声音选择、多语言对话以及与多种工具的深度集成,能够帮助用户提升工作效率。
趣丸科技与香港中文大学(深圳)联合研发的开源文本转语音(TTS)模型,能够实现零样本语音合成,无需显式对齐信息和音素级时长预测,支持多种语言和情感控制。
RaskAI 是一款基于人工智能的视频本地化和配音工具,专为需要快速、高效地将视频内容翻译和配音成多种语言的创作者和企业提供服务 。
丸科技推出的一款基于人工智能的视频翻译工具,能够实现一站式自动化翻译和配音,大幅提升视频内容的国际化传播效率。
趣丸科技推出的一款人工智能语音创作平台,旨在为用户提供高效、逼真且富有情感的语音合成解决方案。它集成了文本转语音、声音克隆、视频翻译等多种功能,能够满足不同场景下的语音创作需求。
开源的轻量化文本转语音(TTS)模型,基于 S1 模型开发,参数规模为 5 亿,支持 14 种语言和 50+ 情感语气控制。
ElevenLabs于2025年6月推出的最新文本转语音(TTS)模型的Alpha版本,被誉为“地表最强”的TTS模型。
MiniMax 稀宇极智推出的新一代文本转语音(TTS)模型,凭借其卓越的语音克隆能力、高质量的语音合成以及广泛的语言支持,成为当前语音合成领域的前沿技术。
基于人工智能技术的播客生成平台,通过自然对话和先进的语音技术,为用户提供个性化的播客内容,让用户随时随地畅听自己感兴趣的节目。
基于扩散模型的情感化动态头像生成方法,能够为说话的肖像生成生动且多样化的情感表达。
高分辨率视频中唇部同步的稳健方法,能够解决唇部运动与音频对齐的问题,同时避免表情泄漏和面部遮挡问题。
开源的音频基础模型,擅长音频理解、生成和对话,适用于多种音频处理任务。
开源文本转语音(TTS)模型,能够生成高度逼真的对话语音,并支持情感语调、非语言提示(如笑声、咳嗽)以及声音克隆功能。
MegaTTS3 是由字节跳动与浙江大学合作开发的一款轻量级文本转语音(TTS)模型,以高效、轻量化和高质量语音合成为特点。
全球首款专为狗狗设计的文本转语音(TTS)模型,通过模仿狗狗的叫声,为宠物主人提供与爱宠“对话”的全新体验。
前沿的文本转语音工具,凭借其强大的语音合成能力和丰富的应用场景,正在改变人们与声音交互的方式。
语音的智能工具,通过先进的语音合成技术,为用户提供自然流畅的语音输出,广泛应用于多种场景。
专注于创建逼真语音的音频生成工具,通过先进的语音合成技术,为用户提供高质量的语音输出,广泛应用于多种场景。
为开发者提供的交互式演示平台,用于体验 OpenAI API 中的新型文本到语音模型,助力开发者快速构建相关应用。
谷歌推出的新一代文本转语音工具,基于先进的LLM模型,能够生成逼真且富有情感的语音,广泛应用于多种场景,为用户提供高质量的语音合成解决方案。
高品质TTS(语音合成)引擎,基于新一代语音生成模型Spark-TTS,具备超自然的语音克隆与跨语种生成能力。
可控高效零样本文本到语音(TTS)系统,基于XTTS和Tortoise开发,能够纠正中文发音并控制停顿,同时在音质和说话者相似度方面表现出色。
Scribe v1支持99种语言的高精度转录,尤其在英语(准确率96.7%)和意大利语(准确率98.7%)上表现出色。
AI 音视频处理工具,专注于为视频创作者和观众提供自动翻译与配音服务,帮助用户轻松跨越语言障碍,提升内容的国际化程度。
一款文本转语音工具,能够将输入的文本快速转换为高质量、富有表现力的语音内容。
一款强大的开源语音交互模型,能够实现语音识别、对话生成、情感克隆和多语言支持,为用户提供高质量的实时语音交互体验。
一款高保真多语言文本到语音(TTS)模型,支持实时语音克隆和多语言情感控制,能够生成自然、富有表现力的语音。
商汤科技推出的AI表演应用,专为创意内容创作者设计,具备强大的生成功能和活跃的创意社区。
一款简单易用的智能视频剪辑和制作APP,旨在帮助用户快速完成视频创作并分享到各大社交平台。
高效的文字转语音工具,能够将文字内容快速转化为自然流畅的语音输出,广泛适用于多种场景。
一个提供多语言视频翻译、创意视频制作、模特视频创作等功能的AI平台,旨在帮助用户高效地创作和管理视频内容。
国内首个具备端到端语音同传能力的大模型,其同传速度与精度直逼人类专家。
Kokoro是一款新发布的语音合成模型,具有8200万参数,以其轻量级设计和高效性能在TTS领域表现卓越。
一种基于音频条件的潜在扩散模型的端到端唇同步框架,能够直接建模复杂的音视频关联.
TANGOFLUX是一个高效的文本到音频(TTA)生成模型,拥有515M参数,能够在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。
Maya1 是一款 30 亿参数的开源实时文本转语音模型,可仅凭单张 GPU 生成高表现力、多情感的自然语音。