文字转语音（配音播报） | 网址分类目录 | AI工具箱

文字转语音（配音播报）

万象有声：AIGC 有声内容制作平台，懒人听书原班人马打造

万象有声是懒人听书原班人马打造的 AIGC 有声内容制作平台，通过 AI 技术解决音频内容制作中的高成本、低效率和品控问题。

小米 MiMo-V2-TTS：方言情感歌声全支持的语音合成大模型

小米推出的语音合成大模型，支持情感表达、方言支持、歌声合成，为智能语音交互带来全新可能性。

Finevoice AI：轻松创建您想象中的声音

FineVoice是由Fineshare推出的多功能AI语音工具，集成了实时变声、语音克隆、文本转语音、语音转文本及AI音效生成等功能，支持149种语言和1000多种AI声音模型，让用户无需专业设备即可创作出专业级配音内容。

Maya1：实时、富有表现力的文本转语音开源模型

Maya1 是一款 30 亿参数的开源实时文本转语音模型，可仅凭单张 GPU 生成高表现力、多情感的自然语音。

Hume AI Voice Conversion：一次录音即可把“声音灵魂”完整移植到任意目标声线

Hume AI Voice Conversion：一次录音即可把“声音灵魂”完整移植到任意目标声线，实现带情感的跨语言、跨性别、跨风格语音转换。

小红书FireRedTTS-2：新一代对话合成模型

FireRedTTS-2 是小红书智创音频技术团队推出的新一代对话合成模型，可实现灵活的逐句生成和高质量的语音合成。

IndexTTS-2.0：B站开源的情感与时长可控文本转语音模型

IndexTTS-2.0 是哔哩哔哩开源的全球首个支持情感与时长双重控制的自回归零样本文本转语音系统，专为高质量AI配音与跨语言内容本地化打造。

Stability AI Stable Audio 2.5：专业级AI音频生成工具

Stable Audio 2.5 是 Stability AI 推出的最新音频生成模型，可在几秒内生成高质量、多段落结构的音乐，支持文本转音频、音频修复等多种创作方式。

Copilot Audio：微软推出的个性化AI语音生成工具

Copilot Audio 是微软基于自研 MAI-Voice-1 模型推出的全新音频模式，支持情感、故事、脚本三种语音风格，带来更具表现力和沉浸感的语音交互体验。

腾讯ARC团队的AudioStory模型：开启AI音频生成新时代

腾讯ARC团队推出的AudioStory模型，能够根据文字描述生成高质量的音频内容，具有强大的叙事能力。

阶跃星辰Step-Audio2mini：最强开源端到端语音大模型

阶跃星辰发布的Step-Audio2mini是一款开源的端到端语音大模型，能够实现语音理解、音频推理与生成的统一建模。

腾讯ARC实验室AudioStory技术：开启音频生成新纪元

AudioStory是腾讯ARC实验室推出的一种能够根据文字描述生成高质量音频内容的技术，具有强大的叙事能力。

GPT-Realtime：开启语音交互新时代

GPT-Realtime是OpenAI推出的一款强大的语音到语音模型，采用端到端Speech-to-Speech架构，能够直接生成并处理语音，省去常规的文本转换步骤，广泛应用于多种语音交互场景。

微软开源音频模型 VibeVoice-1.5B 全解析

VibeVoice-1.5B 是微软开源的文本转语音（TTS）大模型，可一次性生成 90 分钟高保真、多人轮替的长篇语音，并达到 3200 倍超高音频压缩率。

DingTalk A1：钉钉首款 AI 录音硬件，一句话搞定职场记录与分析

DingTalk A1 是钉钉推出的 3.8 mm 超薄 AI 录音笔，通过蓝牙与钉钉 App 连接，即可在 8 米内高清收音并实时完成 97% 准确率的语音转写、多语言翻译和智能总结，为职场沟通与学习场景提供一站式语音记录与分析服务。

Kitten TTS：轻量级高质量文本转语音模型

Kitten TTS 是一款开源的轻量级文本转语音模型，具有仅1500万参数，专为轻量级部署和高质量语音合成设计。

万兴天幕AI：开启智能音视频创作新时代

万兴天幕AI是国内首个音视频多媒体大模型，依托海量数据和先进AI技术，为创作者提供全链路创作支持，助力高效生成高质量音视频内容。

IndexTTS2：首个支持时长精准控制与情感解耦的开源自回归零样本文本转语音引擎

IndexTTS2 通过“可指定 token 数”与“情感-音色解耦”两大创新，让零样本语音合成既能像非自回归模型一样精准对齐时长，又能像自回归模型一样自然生动。

Stable Audio Open Small：移动设备上的高效音频生成工具

Stable Audio Open Small 是一款由 Stability AI 与 Arm 合作推出的轻量级文本到音频生成模型，专为移动设备优化，能够在本地快速生成高质量音频。

ElevenLabs 11ai：AI语音助理，开启智能交互新时代

11ai是ElevenLabs推出的一款以语音交互为核心的AI语音助理，支持多种声音选择、多语言对话以及与多种工具的深度集成，能够帮助用户提升工作效率。

MaskGCT：零样本语音合成的创新突破

趣丸科技与香港中文大学（深圳）联合研发的开源文本转语音（TTS）模型，能够实现零样本语音合成，无需显式对齐信息和音素级时长预测，支持多种语言和情感控制。

RaskAI：AI驱动的视频本地化与配音工具

RaskAI 是一款基于人工智能的视频本地化和配音工具，专为需要快速、高效地将视频内容翻译和配音成多种语言的创作者和企业提供服务。

趣丸千音视频翻译：AI赋能的高效视频翻译解决方案

丸科技推出的一款基于人工智能的视频翻译工具，能够实现一站式自动化翻译和配音，大幅提升视频内容的国际化传播效率。

趣丸千音：AI语音创作的革新者

趣丸科技推出的一款人工智能语音创作平台，旨在为用户提供高效、逼真且富有情感的语音合成解决方案。它集成了文本转语音、声音克隆、视频翻译等多种功能，能够满足不同场景下的语音创作需求。

Fish Audio S1-Mini：轻量化文本转语音模型

开源的轻量化文本转语音（TTS）模型，基于 S1 模型开发，参数规模为 5 亿，支持 14 种语言和 50+ 情感语气控制。

MiniMax Speech-02：新一代语音合成技术的突破

MiniMax 稀宇极智推出的新一代文本转语音（TTS）模型，凭借其卓越的语音克隆能力、高质量的语音合成以及广泛的语言支持，成为当前语音合成领域的前沿技术。

ListenHub：AI驱动的个性化播客平台

基于人工智能技术的播客生成平台，通过自然对话和先进的语音技术，为用户提供个性化的播客内容，让用户随时随地畅听自己感兴趣的节目。

KeySync：高分辨率无泄漏唇部同步的稳健方法

高分辨率视频中唇部同步的稳健方法，能够解决唇部运动与音频对齐的问题，同时避免表情泄漏和面部遮挡问题。

Nari Labs开源文本转语音模型Dia：生成自然对话与非语言提示

开源文本转语音（TTS）模型，能够生成高度逼真的对话语音，并支持情感语调、非语言提示（如笑声、咳嗽）以及声音克隆功能。

字节MegaTTS3：轻量化语音合成模型

MegaTTS3 是由字节跳动与浙江大学合作开发的一款轻量级文本转语音（TTS）模型，以高效、轻量化和高质量语音合成为特点。

ElevenLabs Text to Bark：全球首款为狗狗设计的AI语音合成工具

全球首款专为狗狗设计的文本转语音（TTS）模型，通过模仿狗狗的叫声，为宠物主人提供与爱宠“对话”的全新体验。

MiniMax Audio API：开启智能语音合成新时代

前沿的文本转语音工具，凭借其强大的语音合成能力和丰富的应用场景，正在改变人们与声音交互的方式。

MiniMax Audio：创建逼真语音的智能工具

专注于创建逼真语音的音频生成工具，通过先进的语音合成技术，为用户提供高质量的语音输出，广泛应用于多种场景。

Chirp3：谷歌云高清语音模型，支持248种声音

谷歌推出的新一代文本转语音工具，基于先进的LLM模型，能够生成逼真且富有情感的语音，广泛应用于多种场景，为用户提供高质量的语音合成解决方案。

出门问问 TicVoice 7.0：开启AI语音合成新时代

高品质TTS（语音合成）引擎，基于新一代语音生成模型Spark-TTS，具备超自然的语音克隆与跨语种生成能力。

B站推出的IndexTTS：工业级可控高效的零样本文本到语音系统

可控高效零样本文本到语音（TTS）系统，基于XTTS和Tortoise开发，能够纠正中文发音并控制停顿，同时在音质和说话者相似度方面表现出色。

YouTube Dubbing：AI 音视频翻译配音工具

AI 音视频处理工具，专注于为视频创作者和观众提供自动翻译与配音服务，帮助用户轻松跨越语言障碍，提升内容的国际化程度。

Step-Audio：阶跃开源的130B语音模型

一款强大的开源语音交互模型，能够实现语音识别、对话生成、情感克隆和多语言支持，为用户提供高质量的实时语音交互体验。

Zonos-TTS：高保真多语言文本到语音模型

一款高保真多语言文本到语音（TTS）模型，支持实时语音克隆和多语言情感控制，能够生成自然、富有表现力的语音。

TANGOFLUX：超快忠实的文本到音频生成工具

TANGOFLUX是一个高效的文本到音频（TTA）生成模型，拥有515M参数，能够在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。

Sketch2Sound AI音频工具哼唱和模仿创建音效

一个可控音频生成模型，能够根据一组可解释的时变控制信号（响度、亮度、音高）和文本提示来创造高质量的声音。

F5-TTS 文本到语音转换工具

一个基于深度学习的文本到语音（Text-to-Speech，简称TTS）转换工具，由SWivid开发，旨在将文本转换为自然听起来的语音。

谷歌零样本跨语言语音传输（Zero-Shot Voice Transfer, VT）

一种先进的文本到语音（TTS）技术，能够在没有特定说话者样本的情况下，恢复或模拟说话者的声音。

1 2