Maya1 是一款 30 亿参数的开源实时文本转语音模型,可仅凭单张 GPU 生成高表现力、多情感的自然语音。
Hume AI Voice Conversion:一次录音即可把“声音灵魂”完整移植到任意目标声线,实现带情感的跨语言、跨性别、跨风格语音转换。
SoulX-Podcast是Soul推出的超长时长、高保真多语言AI播客生成引擎,可一键产出90分钟无中断、媲美真人录音的播客节目。
FireRedTTS-2 是小红书智创音频技术团队推出的新一代对话合成模型,可实现灵活的逐句生成和高质量的语音合成。
IndexTTS-2.0 是哔哩哔哩开源的全球首个支持情感与时长双重控制的自回归零样本文本转语音系统,专为高质量AI配音与跨语言内容本地化打造。
Stable Audio 2.5 是 Stability AI 推出的最新音频生成模型,可在几秒内生成高质量、多段落结构的音乐,支持文本转音频、音频修复等多种创作方式。
Copilot Audio 是微软基于自研 MAI-Voice-1 模型推出的全新音频模式,支持情感、故事、脚本三种语音风格,带来更具表现力和沉浸感的语音交互体验。
腾讯ARC团队推出的AudioStory模型,能够根据文字描述生成高质量的音频内容,具有强大的叙事能力。
阶跃星辰发布的Step-Audio2mini是一款开源的端到端语音大模型,能够实现语音理解、音频推理与生成的统一建模。
MAI-Voice-1 是微软推出的高保真语音生成模型,旨在为各种应用场景提供自然、富有情感的语音输出。
AudioStory是腾讯ARC实验室推出的一种能够根据文字描述生成高质量音频内容的技术,具有强大的叙事能力。
GPT-Realtime是OpenAI推出的一款强大的语音到语音模型,采用端到端Speech-to-Speech架构,能够直接生成并处理语音,省去常规的文本转换步骤,广泛应用于多种语音交互场景。
VibeVoice-1.5B 是微软开源的文本转语音(TTS)大模型,可一次性生成 90 分钟高保真、多人轮替的长篇语音,并达到 3200 倍超高音频压缩率。
DingTalk A1 是钉钉推出的 3.8 mm 超薄 AI 录音笔,通过蓝牙与钉钉 App 连接,即可在 8 米内高清收音并实时完成 97% 准确率的语音转写、多语言翻译和智能总结,为职场沟通与学习场景提供一站式语音记录与分析服务。
Kitten TTS 是一款开源的轻量级文本转语音模型,具有仅1500万参数,专为轻量级部署和高质量语音合成设计。
万兴天幕AI是国内首个音视频多媒体大模型,依托海量数据和先进AI技术,为创作者提供全链路创作支持,助力高效生成高质量音视频内容。
Voxtral 是 Mistral 推出的首个开源音频模型,旨在为企业和开发者提供高性价比的语音智能解决方案。
IndexTTS2 通过“可指定 token 数”与“情感-音色解耦”两大创新,让零样本语音合成既能像非自回归模型一样精准对齐时长,又能像自回归模型一样自然生动。
Stable Audio Open Small 是一款由 Stability AI 与 Arm 合作推出的轻量级文本到音频生成模型,专为移动设备优化,能够在本地快速生成高质量音频。
11ai是ElevenLabs推出的一款以语音交互为核心的AI语音助理,支持多种声音选择、多语言对话以及与多种工具的深度集成,能够帮助用户提升工作效率。
趣丸科技与香港中文大学(深圳)联合研发的开源文本转语音(TTS)模型,能够实现零样本语音合成,无需显式对齐信息和音素级时长预测,支持多种语言和情感控制。
RaskAI 是一款基于人工智能的视频本地化和配音工具,专为需要快速、高效地将视频内容翻译和配音成多种语言的创作者和企业提供服务 。
丸科技推出的一款基于人工智能的视频翻译工具,能够实现一站式自动化翻译和配音,大幅提升视频内容的国际化传播效率。
趣丸科技推出的一款人工智能语音创作平台,旨在为用户提供高效、逼真且富有情感的语音合成解决方案。它集成了文本转语音、声音克隆、视频翻译等多种功能,能够满足不同场景下的语音创作需求。
开源的轻量化文本转语音(TTS)模型,基于 S1 模型开发,参数规模为 5 亿,支持 14 种语言和 50+ 情感语气控制。
ElevenLabs于2025年6月推出的最新文本转语音(TTS)模型的Alpha版本,被誉为“地表最强”的TTS模型。
MiniMax 稀宇极智推出的新一代文本转语音(TTS)模型,凭借其卓越的语音克隆能力、高质量的语音合成以及广泛的语言支持,成为当前语音合成领域的前沿技术。
基于人工智能技术的播客生成平台,通过自然对话和先进的语音技术,为用户提供个性化的播客内容,让用户随时随地畅听自己感兴趣的节目。
基于扩散模型的情感化动态头像生成方法,能够为说话的肖像生成生动且多样化的情感表达。
高分辨率视频中唇部同步的稳健方法,能够解决唇部运动与音频对齐的问题,同时避免表情泄漏和面部遮挡问题。
开源的音频基础模型,擅长音频理解、生成和对话,适用于多种音频处理任务。
开源文本转语音(TTS)模型,能够生成高度逼真的对话语音,并支持情感语调、非语言提示(如笑声、咳嗽)以及声音克隆功能。
MegaTTS3 是由字节跳动与浙江大学合作开发的一款轻量级文本转语音(TTS)模型,以高效、轻量化和高质量语音合成为特点。
全球首款专为狗狗设计的文本转语音(TTS)模型,通过模仿狗狗的叫声,为宠物主人提供与爱宠“对话”的全新体验。
前沿的文本转语音工具,凭借其强大的语音合成能力和丰富的应用场景,正在改变人们与声音交互的方式。
语音的智能工具,通过先进的语音合成技术,为用户提供自然流畅的语音输出,广泛应用于多种场景。
专注于创建逼真语音的音频生成工具,通过先进的语音合成技术,为用户提供高质量的语音输出,广泛应用于多种场景。
谷歌推出的新一代文本转语音工具,基于先进的LLM模型,能够生成逼真且富有情感的语音,广泛应用于多种场景,为用户提供高质量的语音合成解决方案。
高品质TTS(语音合成)引擎,基于新一代语音生成模型Spark-TTS,具备超自然的语音克隆与跨语种生成能力。
可控高效零样本文本到语音(TTS)系统,基于XTTS和Tortoise开发,能够纠正中文发音并控制停顿,同时在音质和说话者相似度方面表现出色。
AI 音视频处理工具,专注于为视频创作者和观众提供自动翻译与配音服务,帮助用户轻松跨越语言障碍,提升内容的国际化程度。
一款文本转语音工具,能够将输入的文本快速转换为高质量、富有表现力的语音内容。
一款强大的开源语音交互模型,能够实现语音识别、对话生成、情感克隆和多语言支持,为用户提供高质量的实时语音交互体验。
一款高保真多语言文本到语音(TTS)模型,支持实时语音克隆和多语言情感控制,能够生成自然、富有表现力的语音。
高效的文字转语音工具,能够将文字内容快速转化为自然流畅的语音输出,广泛适用于多种场景。
一个提供多语言视频翻译、创意视频制作、模特视频创作等功能的AI平台,旨在帮助用户高效地创作和管理视频内容。
TANGOFLUX是一个高效的文本到音频(TTA)生成模型,拥有515M参数,能够在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。
一款革命性的语音语言模型,能够将文本迅速转换为具有真人声和克隆人格特征的语音。
一个可控音频生成模型,能够根据一组可解释的时变控制信号(响度、亮度、音高)和文本提示来创造高质量的声音。
一项基于多模态联合训练的AI音频合成技术,能够根据视频或文本输入自动生成同步的音频效果。
Fineshare是一款多功能的AI语音生成器,能够将文本转换为自然流畅的语音。
一款能够生成对话式播客音频的端到端AI语音模型,它通过调控语调、情感和语速,实现更自然的语音合成。
一个基于深度学习的文本到语音(Text-to-Speech,简称TTS)转换工具,由SWivid开发,旨在将文本转换为自然听起来的语音。
一款元宇宙版Sora的AI视频生成模型,可一键创作高质量视频、配音、编辑剪辑,甚至将个人照片变成个性化视频。
谷歌推出的一款实验性AI产品,它利用谷歌强大的Gemini1.5Pro模型,为用户提供智能化的笔记整理和内容提炼服务。
Google推出的一款AI笔记应用,能够将文档内容转化为音频播客,帮助用户更高效地学习和获取信息。
一种先进的文本到语音(TTS)技术,能够在没有特定说话者样本的情况下,恢复或模拟说话者的声音。
Hugging Face 和 MIT 联合开发的将 PDF 文档转换为音频文件的工具。
一个提供语音到文本、文本到语音以及语言理解 API 的语音 AI 平台。它被全球顶尖企业、对话式 AI 领导者和初创公司所信赖,适用于医疗转录到自主代理等多种场景。
一个专为iOS和macOS开发的音频处理库,它提供了一个简洁的API来处理音频数据,使得音频的录制、播放和分析变得异常简单。
Maya1 是一款 30 亿参数的开源实时文本转语音模型,可仅凭单张 GPU 生成高表现力、多情感的自然语音。