IndexTTS2:首个支持时长精准控制与情感解耦的开源自回归零样本文本转语音引擎
文字转语音(配音播报)
IndexTTS2:首个支持时长精准控制与情感解耦的开源自回归零样本文本转语音引擎

IndexTTS2 通过“可指定 token 数”与“情感-音色解耦”两大创新,让零样本语音合成既能像非自回归模型一样精准对齐时长,又能像自回归模型一样自然生动。

开通正版Chatgpt账号联系QQ:515002667
IndexTTS2 通过“可指定 token 数”与“情感-音色解耦”两大创新,让零样本语音合成既能像非自回归模型一样精准对齐时长,又能像自回归模型一样自然生动。
1 主要功能
1.1 时长精准控制:用户可显式设定生成 token 数,0.75×–1.25× 倍速随心调节,满足影视配音、短视频口播等严格音画同步需求。
1.2 情感零样本迁移:只需 3–10 秒参考音频即可复刻情绪,支持“同音色不同情感”“不同音色嫁接情感”和“文本描述驱动情感”三种模式。
1.3 音色保持:利用说话人表征解耦技术,合成语音与目标音色相似度>0.85(内部测试)。
1.4 多语言零样本:中、英、混合语料均可直接推理,无需额外微调。
1.5 清晰度增强:引入 GPT 隐变量对强情绪下的频谱抖动进行稳定性补偿,显著降低爆音与哑音。
2 技术原理
2.1 可控制自回归:在传统自回归声学模型前加入 Duration Predictor,与主模型端到端训练;推理时可将 token 预算作为硬约束输入。
2.2 情感-音色解耦:采用双路径编码器,一路提取全局说话人向量,一路提取帧级情感向量;二者通过正交损失与对比损失实现分离。
2.3 软指令机制:利用 Qwen3 微调得到文本-情感映射模块,把“巨巨巨难过”“超级无敌爆炸 angry”等自然语言转成可微情感向量。
2.4 训练数据:2000 小时高质量多语种朗读+情感朗读+影视对白,覆盖 50+ 情绪标签。
3 应用场景
3.1 影视与动画配音:快速替换对白、补录台词,保证嘴型同步。
3.2 UGC 短视频:一键生成多情绪旁白,适配不同剧情节奏。
3.3 虚拟数字人:实时驱动数字人说话时保持品牌音色一致,情绪随场景切换。
3.4 无障碍朗读:为视障用户生成带情感的有声书。
3.5 游戏 NPC:零样本生成大量角色语音,减少录音成本。
4 使用方法
4.1 安装
复制
git clone https://github.com/index-tts/IndexTTS2
conda create -n indextts2 python=3.9
conda activate indextts2
pip install -r requirements.txt
4.2 快速推理(时长控制)
Python

复制
from indextts2 import IndexTTS2
tts = IndexTTS2("index-tts/IndexTTS2-7B")
wav = tts.synthesize(text="今天天气真不错。",
                     spk_prompt="./ref_happy.wav",
                     target_tokens=120)   # 直接控制 token 数
4.3 情感文本指令
Python

复制
wav = tts.synthesize(text="我再也忍不住了!",
                     spk_prompt="./ref_neutral.wav",
                     emotion_text="极度愤怒",
                     emotion_weight=1.2)
4.4 批量脚本:官方提供 scripts/batch_dub.py 支持 csv 批量生成并自动对齐视频帧。
5 适用人群
5.1 影视后期、动画工作室的配音导演。
5.2 短视频 MCN 机构、自媒体创作者。
5.3 AI 语音开发者与游戏工作室。
5.4 无障碍技术研发人员。
6 优缺点介绍
6.1 优点
  • 开源权重与推理代码,可商用;
  • 首次在自回归框架内实现时长硬控制;
  • 情感/音色独立可调,灵活性高;
  • 支持自然语言情感指令,零门槛。
    6.2 缺点
  • 7B 模型 16G 显存起步,实时性仍逊于非自回归方案;
  • 对少于 3 秒的极短参考音频,情感一致性略有下降;
  • 当前仅发布推理代码,训练脚本需自行复现。
分类标签:语音合成、零样本学习、情感控制、时长对齐、开源模型、影视配音、多语言支持

相关导航