IndexTTS2 通过“可指定 token 数”与“情感-音色解耦”两大创新,让零样本语音合成既能像非自回归模型一样精准对齐时长,又能像自回归模型一样自然生动。
1 主要功能
1.1 时长精准控制:用户可显式设定生成 token 数,0.75×–1.25× 倍速随心调节,满足影视配音、短视频口播等严格音画同步需求。
1.2 情感零样本迁移:只需 3–10 秒参考音频即可复刻情绪,支持“同音色不同情感”“不同音色嫁接情感”和“文本描述驱动情感”三种模式。
1.3 音色保持:利用说话人表征解耦技术,合成语音与目标音色相似度>0.85(内部测试)。
1.4 多语言零样本:中、英、混合语料均可直接推理,无需额外微调。
1.5 清晰度增强:引入 GPT 隐变量对强情绪下的频谱抖动进行稳定性补偿,显著降低爆音与哑音。
1.1 时长精准控制:用户可显式设定生成 token 数,0.75×–1.25× 倍速随心调节,满足影视配音、短视频口播等严格音画同步需求。
1.2 情感零样本迁移:只需 3–10 秒参考音频即可复刻情绪,支持“同音色不同情感”“不同音色嫁接情感”和“文本描述驱动情感”三种模式。
1.3 音色保持:利用说话人表征解耦技术,合成语音与目标音色相似度>0.85(内部测试)。
1.4 多语言零样本:中、英、混合语料均可直接推理,无需额外微调。
1.5 清晰度增强:引入 GPT 隐变量对强情绪下的频谱抖动进行稳定性补偿,显著降低爆音与哑音。
2 技术原理
2.1 可控制自回归:在传统自回归声学模型前加入 Duration Predictor,与主模型端到端训练;推理时可将 token 预算作为硬约束输入。
2.2 情感-音色解耦:采用双路径编码器,一路提取全局说话人向量,一路提取帧级情感向量;二者通过正交损失与对比损失实现分离。
2.3 软指令机制:利用 Qwen3 微调得到文本-情感映射模块,把“巨巨巨难过”“超级无敌爆炸 angry”等自然语言转成可微情感向量。
2.4 训练数据:2000 小时高质量多语种朗读+情感朗读+影视对白,覆盖 50+ 情绪标签。
2.1 可控制自回归:在传统自回归声学模型前加入 Duration Predictor,与主模型端到端训练;推理时可将 token 预算作为硬约束输入。
2.2 情感-音色解耦:采用双路径编码器,一路提取全局说话人向量,一路提取帧级情感向量;二者通过正交损失与对比损失实现分离。
2.3 软指令机制:利用 Qwen3 微调得到文本-情感映射模块,把“巨巨巨难过”“超级无敌爆炸 angry”等自然语言转成可微情感向量。
2.4 训练数据:2000 小时高质量多语种朗读+情感朗读+影视对白,覆盖 50+ 情绪标签。
3 应用场景
3.1 影视与动画配音:快速替换对白、补录台词,保证嘴型同步。
3.2 UGC 短视频:一键生成多情绪旁白,适配不同剧情节奏。
3.3 虚拟数字人:实时驱动数字人说话时保持品牌音色一致,情绪随场景切换。
3.4 无障碍朗读:为视障用户生成带情感的有声书。
3.5 游戏 NPC:零样本生成大量角色语音,减少录音成本。
3.1 影视与动画配音:快速替换对白、补录台词,保证嘴型同步。
3.2 UGC 短视频:一键生成多情绪旁白,适配不同剧情节奏。
3.3 虚拟数字人:实时驱动数字人说话时保持品牌音色一致,情绪随场景切换。
3.4 无障碍朗读:为视障用户生成带情感的有声书。
3.5 游戏 NPC:零样本生成大量角色语音,减少录音成本。
4 使用方法
4.1 安装
4.1 安装
git clone https://github.com/index-tts/IndexTTS2
conda create -n indextts2 python=3.9
conda activate indextts2
pip install -r requirements.txt
4.2 快速推理(时长控制)
Python
from indextts2 import IndexTTS2
tts = IndexTTS2("index-tts/IndexTTS2-7B")
wav = tts.synthesize(text="今天天气真不错。",
spk_prompt="./ref_happy.wav",
target_tokens=120) # 直接控制 token 数
4.3 情感文本指令
Python
wav = tts.synthesize(text="我再也忍不住了!",
spk_prompt="./ref_neutral.wav",
emotion_text="极度愤怒",
emotion_weight=1.2)
4.4 批量脚本:官方提供
scripts/batch_dub.py 支持 csv 批量生成并自动对齐视频帧。5 适用人群
5.1 影视后期、动画工作室的配音导演。
5.2 短视频 MCN 机构、自媒体创作者。
5.3 AI 语音开发者与游戏工作室。
5.4 无障碍技术研发人员。
5.1 影视后期、动画工作室的配音导演。
5.2 短视频 MCN 机构、自媒体创作者。
5.3 AI 语音开发者与游戏工作室。
5.4 无障碍技术研发人员。
6 优缺点介绍
6.1 优点
6.1 优点
-
开源权重与推理代码,可商用;
-
首次在自回归框架内实现时长硬控制;
-
情感/音色独立可调,灵活性高;
-
支持自然语言情感指令,零门槛。
6.2 缺点 -
7B 模型 16G 显存起步,实时性仍逊于非自回归方案;
-
对少于 3 秒的极短参考音频,情感一致性略有下降;
-
当前仅发布推理代码,训练脚本需自行复现。
分类标签:语音合成、零样本学习、情感控制、时长对齐、开源模型、影视配音、多语言支持

Hugging Face 和 MIT 联合开发的将 PDF 文档转换为音频文件的工具。