Nari Labs开源文本转语音模型Dia：生成自然对话与非语言提示

AI开源项目文字转语音（配音播报）

开源文本转语音（TTS）模型，能够生成高度逼真的对话语音，并支持情感语调、非语言提示（如笑声、咳嗽）以及声音克隆功能。

链接直达手机查看

Dia是由Nari Labs开发的开源文本转语音（TTS）模型，能够生成高度逼真的对话语音，并支持情感语调、非语言提示（如笑声、咳嗽）以及声音克隆功能。
一、主要功能
语音生成：根据文本脚本生成自然流畅的对话语音。
语调定制：支持情感语调控制，适应不同情境。
非语言提示：生成如笑声（laughs）、咳嗽声（coughs）等非语言音频。
声音克隆：上传音频样本后，可克隆特定人物的声音。
对话标签支持：通过[S1]和[S2]标签生成多角色对话。
二、技术原理
Dia基于深度学习技术，拥有16亿参数，能够直接从文本生成高度逼真的对话。它支持通过音频条件控制情感和语调，并使用Descript Audio Codec生成音频。目前模型仅支持英语生成。
三、应用场景
视频与游戏制作：生成逼真的角色对话和旁白。
教育与研究：用于语音生成相关的实验和研究。
情感交互应用：通过情感语调控制，用于情感驱动的交互。
个性化语音服务：通过声音克隆功能，为用户提供个性化语音体验。
四、使用方法
安装与运行：
使用pip安装：pip install git+https://github.com/nari-labs/dia.git。
运行Gradio UI：克隆仓库后运行uv run app.py。
Python库使用：
Python
复制
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B")
text = "[S1] Dia is an open weights text to dialogue model. [S2] You get full control over the output."
output = model.generate(text)
声音克隆：
在Hugging Face空间上传音频样本，并将转录文本放在脚本之前。
五、适用人群
内容创作者：需要生成高质量语音内容的视频制作者、游戏开发者。
研究人员：进行语音生成和情感交互研究的学者。
开发者：希望通过API集成语音生成功能的开发者。
教育工作者：用于教学和研究的教育人员。
六、优缺点介绍
优点
高度逼真：生成的语音自然流畅，支持情感语调和非语言提示。
开源免费：模型权重和代码完全开源，用户可免费使用。
灵活性高：支持多种功能，如声音克隆和对话标签。
社区支持：提供Discord社区支持和新功能更新。
缺点
仅支持英语：目前模型仅支持英语生成。
硬件要求高：完整版本需要约10GB显存，仅支持GPU。
功能复杂度：部分功能（如声音克隆）需要一定的技术背景。
分类标签
文本转语音、语音合成、情感交互、声音克隆、开源模型

相关导航

ChatTS：基于合成数据的多模态大语言模型助力时间序列理解与推理

新型的多模态大语言模型（MLLM），专为时间序列分析而设计，通过合成数据训练，能够显著提升对时间序列的理解和推理能力。

微软WHAMM模型：实时生成可玩游戏的人工智能模型

创新的人工智能模型，能够完全在AI模型内部生成并运行经典游戏，实时呈现可供玩家操作的游戏版本。

Kimi Linear 架构

Kimi Linear 是月之暗面推出的全新注意力架构，用 KDA 技术把 KV 缓存砍掉 75%、推理速度直接翻 6 倍，让长文本大模型“既省内存又飙车”。

百度PaddleOCR-VL文档解析模型

PaddleOCR-VL 是百度 2025 年 10 月开源的全球最强文档解析模型，仅用 0.9B 参数即可在复杂版面、手写、表格、公式、图表等全场景实现 SOTA 级“看懂+读懂”。

Nvidia Nemotron-Nano-9B-v2：高效小型语言模型

Nvidia Nemotron-Nano-9B-v2 是一款专为单张 A10 GPU 优化的高效小型语言模型，支持多语言和灵活的推理控制功能。

免责声明：本站为个人资讯、工具类学习博客，所发布的一切形式的内容，包括但不限于文字、链接、工具、图片、视频、软件等，仅限用于学习和研究目的，不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，如有侵权请联系本站删除下架，您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。访问和下载本站内容，说明您已同意上述条款。本站为非盈利性站点，本站不贩卖软件，所有内容不作为商业行为，点击、使用相关工具时请注意甄别，谨防上当受骗。咨询联系：yumiok88@gmail.com.