IndexTTS2：首个支持时长精准控制与情感解耦的开源自回归零样本文本转语音引擎

文字转语音（配音播报）

IndexTTS2 通过“可指定 token 数”与“情感-音色解耦”两大创新，让零样本语音合成既能像非自回归模型一样精准对齐时长，又能像自回归模型一样自然生动。

链接直达手机查看

IndexTTS2 通过“可指定 token 数”与“情感-音色解耦”两大创新，让零样本语音合成既能像非自回归模型一样精准对齐时长，又能像自回归模型一样自然生动。

主要功能
1 时长精准控制：用户可显式设定生成 token 数，0.75×–1.25× 倍速随心调节，满足影视配音、短视频口播等严格音画同步需求。
2 情感零样本迁移：只需 3–10 秒参考音频即可复刻情绪，支持“同音色不同情感”“不同音色嫁接情感”和“文本描述驱动情感”三种模式。
3 音色保持：利用说话人表征解耦技术，合成语音与目标音色相似度>0.85（内部测试）。
4 多语言零样本：中、英、混合语料均可直接推理，无需额外微调。
5 清晰度增强：引入 GPT 隐变量对强情绪下的频谱抖动进行稳定性补偿，显著降低爆音与哑音。

技术原理
1 可控制自回归：在传统自回归声学模型前加入 Duration Predictor，与主模型端到端训练；推理时可将 token 预算作为硬约束输入。
2 情感-音色解耦：采用双路径编码器，一路提取全局说话人向量，一路提取帧级情感向量；二者通过正交损失与对比损失实现分离。
3 软指令机制：利用 Qwen3 微调得到文本-情感映射模块，把“巨巨巨难过”“超级无敌爆炸 angry”等自然语言转成可微情感向量。
4 训练数据：2000 小时高质量多语种朗读+情感朗读+影视对白，覆盖 50+ 情绪标签。

应用场景
1 影视与动画配音：快速替换对白、补录台词，保证嘴型同步。
2 UGC 短视频：一键生成多情绪旁白，适配不同剧情节奏。
3 虚拟数字人：实时驱动数字人说话时保持品牌音色一致，情绪随场景切换。
4 无障碍朗读：为视障用户生成带情感的有声书。
5 游戏 NPC：零样本生成大量角色语音，减少录音成本。

4 使用方法
4.1 安装

复制

git clone https://github.com/index-tts/IndexTTS2
conda create -n indextts2 python=3.9
conda activate indextts2
pip install -r requirements.txt

4.2 快速推理（时长控制）

Python

复制

from indextts2 import IndexTTS2
tts = IndexTTS2("index-tts/IndexTTS2-7B")
wav = tts.synthesize(text="今天天气真不错。",
                     spk_prompt="./ref_happy.wav",
                     target_tokens=120)   # 直接控制 token 数

4.3 情感文本指令

Python

复制

wav = tts.synthesize(text="我再也忍不住了！",
                     spk_prompt="./ref_neutral.wav",
                     emotion_text="极度愤怒",
                     emotion_weight=1.2)

4.4 批量脚本：官方提供 scripts/batch_dub.py 支持 csv 批量生成并自动对齐视频帧。

适用人群
1 影视后期、动画工作室的配音导演。
2 短视频 MCN 机构、自媒体创作者。
3 AI 语音开发者与游戏工作室。
4 无障碍技术研发人员。

6 优缺点介绍
6.1 优点

开源权重与推理代码，可商用；
首次在自回归框架内实现时长硬控制；
情感/音色独立可调，灵活性高；
支持自然语言情感指令，零门槛。
6.2 缺点
7B 模型 16G 显存起步，实时性仍逊于非自回归方案；
对少于 3 秒的极短参考音频，情感一致性略有下降；
当前仅发布推理代码，训练脚本需自行复现。

分类标签：语音合成、零样本学习、情感控制、时长对齐、开源模型、影视配音、多语言支持

相关导航

小红书FireRedTTS-2：新一代对话合成模型

FireRedTTS-2 是小红书智创音频技术团队推出的新一代对话合成模型，可实现灵活的逐句生成和高质量的语音合成。

DingTalk A1：钉钉首款 AI 录音硬件，一句话搞定职场记录与分析

DingTalk A1 是钉钉推出的 3.8 mm 超薄 AI 录音笔，通过蓝牙与钉钉 App 连接，即可在 8 米内高清收音并实时完成 97% 准确率的语音转写、多语言翻译和智能总结，为职场沟通与学习场景提供一站式语音记录与分析服务。

趣丸千音视频翻译：AI赋能的高效视频翻译解决方案

丸科技推出的一款基于人工智能的视频翻译工具，能够实现一站式自动化翻译和配音，大幅提升视频内容的国际化传播效率。

免责声明：本站为个人资讯、工具类学习博客，所发布的一切形式的内容，包括但不限于文字、链接、工具、图片、视频、软件等，仅限用于学习和研究目的，不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，如有侵权请联系本站删除下架，您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。访问和下载本站内容，说明您已同意上述条款。本站为非盈利性站点，本站不贩卖软件，所有内容不作为商业行为，点击、使用相关工具时请注意甄别，谨防上当受骗。咨询联系：yumiok88@gmail.com.