AI音频工具 | 网址分类目录

Udio

Udio是一款由前GoogleDeepMind团队成员创办的AI音乐生成平台，以其卓越的音质表现和精细化的创[…]

美团 LongCat-AudioDiT：开源音频大模型，首创波形潜空间建模

美团开源音频生成大模型，首创波形潜空间建模，刷新音色克隆 SOTA，解决音色漂移问题。

美团 LongCat-AudioDiT：开源音频大模型，首创波形潜空间建模

美团开源音频生成大模型，首创波形潜空间建模，刷新音色克隆 SOTA，解决音色漂移问题。

万象有声：AIGC 有声内容制作平台，懒人听书原班人马打造

万象有声是懒人听书原班人马打造的 AIGC 有声内容制作平台，通过 AI 技术解决音频内容制作中的高成本、低效率和品控问题。

Gemini 3.1 Flash Live - 谷歌实时语音多模态模型，Search Live 全球上线

谷歌实时语音多模态模型，Search Live 全球上线，支持摄像头实时识别与低延迟语音对话，开发者可构建实时智能代理应用。

小米 MiMo-V2-TTS：方言情感歌声全支持的语音合成大模型

小米推出的语音合成大模型，支持情感表达、方言支持、歌声合成，为智能语音交互带来全新可能性。

可灵3.0多模态AI创作模型

可灵3.0是快手可灵AI（Kling AI）上线的新一代统一多模态AI创作模型，涵盖Video 3.0、Video 3.0 Omni、Image 3.0三大核心模块，以“电影级叙事+原生音画同步”为核心亮点，融合AI导演系统与视觉思维链技术，实现从图像到视频的全链路创作，兼顾专业性与易用性，适配个人、商业等多类创作需求。

蚂蚁集团 Ming-flash-omni 2.0 全模态大模型

Ming-flash-omni 2.0 是蚂蚁集团开源的新一代全模态大模型，基于 Ling-2.0 MoE 架构打造，实现视觉语言理解、图像生成编辑、语音 / 音效 / 音乐统一生成三大能力全面升级，部分指标超越 Gemini 2.5 Pro，为多模态应用开发提供高效统一入口。

腾讯搜狗输入法 20.0 AI 版本下载

腾讯搜狗输入法 20.0 是腾讯推出的全面 AI 化升级输入法版本，以 AI 语音、AI 翻译、AI 打字三大核心功能升级为亮点，大幅提升输入效率与智能化体验，适配多场景输入需求。

Finevoice AI：轻松创建您想象中的声音

FineVoice是由Fineshare推出的多功能AI语音工具，集成了实时变声、语音克隆、文本转语音、语音转文本及AI音效生成等功能，支持149种语言和1000多种AI声音模型，让用户无需专业设备即可创作出专业级配音内容。

阿里通义 Fun-Audio-Chat-8B 开源语音交互大模型

Fun-Audio-Chat-8B 是阿里巴巴通义实验室开源的新一代端到端语音交互大模型，以双分辨率语音表征架构实现超低延迟与近 50% GPU 资源节省，兼具情感感知、语音指令执行、全双工交互等核心能力，性能逼近 GPT-4o Audio 与 Gemini 2.5 Pro，推动开源语音 AI 进入实用化新阶段。

Meta SAM Audio：全球首个多模态音频分离模型

SAM Audio 是 Meta 发布的全球首个支持 “点击分离声音” 的多模态音频基础模型，能够通过文本、视觉或时间片段提示，从复杂音频混合物中一键提取目标声音。

智谱 AI 输入法：桌面端语音转写翻译一站式神器

在 PC 上“动嘴不动手”，即可把语音实时转成文字、翻译、改写，并同步开源 GLM-ASR 模型供开发者二次定制。

阿里 Qwen3-TTS 登场：49 种音色 + 10 语言 9 方言，WER 碾压主流商用模型

Qwen3-TTS 是阿里巴巴推出的零样本多角色跨语言语音合成引擎，一句话就能克隆任意音色并流畅朗读多语种文本。

Maya1：实时、富有表现力的文本转语音开源模型

Maya1 是一款 30 亿参数的开源实时文本转语音模型，可仅凭单张 GPU 生成高表现力、多情感的自然语音。

Hume AI Voice Conversion：一次录音即可把“声音灵魂”完整移植到任意目标声线

Hume AI Voice Conversion：一次录音即可把“声音灵魂”完整移植到任意目标声线，实现带情感的跨语言、跨性别、跨风格语音转换。

Xiaomi-MiMo-Audio：小米开源首个原生端到端语音大模型

Xiaomi-MiMo-Audio 是小米开源的首个原生端到端语音大模型，基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于 ICL 的少样本泛化。

小红书FireRedTTS-2：新一代对话合成模型

FireRedTTS-2 是小红书智创音频技术团队推出的新一代对话合成模型，可实现灵活的逐句生成和高质量的语音合成。

IndexTTS-2.0：B站开源的情感与时长可控文本转语音模型

IndexTTS-2.0 是哔哩哔哩开源的全球首个支持情感与时长双重控制的自回归零样本文本转语音系统，专为高质量AI配音与跨语言内容本地化打造。

Stability AI Stable Audio 2.5：专业级AI音频生成工具

Stable Audio 2.5 是 Stability AI 推出的最新音频生成模型，可在几秒内生成高质量、多段落结构的音乐，支持文本转音频、音频修复等多种创作方式。

Copilot Audio：微软推出的个性化AI语音生成工具

Copilot Audio 是微软基于自研 MAI-Voice-1 模型推出的全新音频模式，支持情感、故事、脚本三种语音风格，带来更具表现力和沉浸感的语音交互体验。

Infinite Talk：无限长度语音视频生成模型

Infinite Talk 是一个由 MeiGen-ai 研发小组开源的数字人项目，能够生成无限长度的视频，具有准确的口型同步和一致的身份保留。

GPT-realtime：开启语音交互新时代

GPT-realtime 是 OpenAI发布的语音到语音模型，能够通过单个模型和 API 处理从音频输入到音频输出的全流程，为语音交互带来革命性突破。

腾讯ARC团队的AudioStory模型：开启AI音频生成新时代

腾讯ARC团队推出的AudioStory模型，能够根据文字描述生成高质量的音频内容，具有强大的叙事能力。

阶跃星辰Step-Audio2mini：最强开源端到端语音大模型

阶跃星辰发布的Step-Audio2mini是一款开源的端到端语音大模型，能够实现语音理解、音频推理与生成的统一建模。

腾讯ARC实验室AudioStory技术：开启音频生成新纪元

AudioStory是腾讯ARC实验室推出的一种能够根据文字描述生成高质量音频内容的技术，具有强大的叙事能力。

GPT-Realtime：开启语音交互新时代

GPT-Realtime是OpenAI推出的一款强大的语音到语音模型，采用端到端Speech-to-Speech架构，能够直接生成并处理语音，省去常规的文本转换步骤，广泛应用于多种语音交互场景。

腾讯混元开源端到端视频音效生成模型HunyuanVideo-Foley

HunyuanVideo-Foley是腾讯混元团队开源的端到端视频音效生成模型，能够根据输入的视频内容和文字描述，自动生成与画面高度匹配的高质量音效，为视频创作带来沉浸式体验。

微软开源音频模型 VibeVoice-1.5B 全解析

VibeVoice-1.5B 是微软开源的文本转语音（TTS）大模型，可一次性生成 90 分钟高保真、多人轮替的长篇语音，并达到 3200 倍超高音频压缩率。

DingTalk A1：钉钉首款 AI 录音硬件，一句话搞定职场记录与分析

DingTalk A1 是钉钉推出的 3.8 mm 超薄 AI 录音笔，通过蓝牙与钉钉 App 连接，即可在 8 米内高清收音并实时完成 97% 准确率的语音转写、多语言翻译和智能总结，为职场沟通与学习场景提供一站式语音记录与分析服务。

Fun-ASR：钉钉与通义实验室联合发布的语音识别大模型

Fun-ASR是由钉钉与通义实验室联合发布的新一代语音识别大模型，旨在为企业提供更强大、灵活的语音转写能力。

Kitten TTS：轻量级高质量文本转语音模型

Kitten TTS 是一款开源的轻量级文本转语音模型，具有仅1500万参数，专为轻量级部署和高质量语音合成设计。

万兴天幕AI：开启智能音视频创作新时代

万兴天幕AI是国内首个音视频多媒体大模型，依托海量数据和先进AI技术，为创作者提供全链路创作支持，助力高效生成高质量音视频内容。

IndexTTS2：首个支持时长精准控制与情感解耦的开源自回归零样本文本转语音引擎

IndexTTS2 通过“可指定 token 数”与“情感-音色解耦”两大创新，让零样本语音合成既能像非自回归模型一样精准对齐时长，又能像自回归模型一样自然生动。

Stable Audio Open Small：移动设备上的高效音频生成工具

Stable Audio Open Small 是一款由 Stability AI 与 Arm 合作推出的轻量级文本到音频生成模型，专为移动设备优化，能够在本地快速生成高质量音频。

ElevenLabs 11ai：AI语音助理，开启智能交互新时代

11ai是ElevenLabs推出的一款以语音交互为核心的AI语音助理，支持多种声音选择、多语言对话以及与多种工具的深度集成，能够帮助用户提升工作效率。

MaskGCT：零样本语音合成的创新突破

趣丸科技与香港中文大学（深圳）联合研发的开源文本转语音（TTS）模型，能够实现零样本语音合成，无需显式对齐信息和音素级时长预测，支持多种语言和情感控制。

RaskAI：AI驱动的视频本地化与配音工具

RaskAI 是一款基于人工智能的视频本地化和配音工具，专为需要快速、高效地将视频内容翻译和配音成多种语言的创作者和企业提供服务。

趣丸千音视频翻译：AI赋能的高效视频翻译解决方案

丸科技推出的一款基于人工智能的视频翻译工具，能够实现一站式自动化翻译和配音，大幅提升视频内容的国际化传播效率。

趣丸千音：AI语音创作的革新者

趣丸科技推出的一款人工智能语音创作平台，旨在为用户提供高效、逼真且富有情感的语音合成解决方案。它集成了文本转语音、声音克隆、视频翻译等多种功能，能够满足不同场景下的语音创作需求。

Fish Audio S1-Mini：轻量化文本转语音模型

开源的轻量化文本转语音（TTS）模型，基于 S1 模型开发，参数规模为 5 亿，支持 14 种语言和 50+ 情感语气控制。

MiniMax Speech-02：新一代语音合成技术的突破

MiniMax 稀宇极智推出的新一代文本转语音（TTS）模型，凭借其卓越的语音克隆能力、高质量的语音合成以及广泛的语言支持，成为当前语音合成领域的前沿技术。

ListenHub：AI驱动的个性化播客平台

基于人工智能技术的播客生成平台，通过自然对话和先进的语音技术，为用户提供个性化的播客内容，让用户随时随地畅听自己感兴趣的节目。

KeySync：高分辨率无泄漏唇部同步的稳健方法

高分辨率视频中唇部同步的稳健方法，能够解决唇部运动与音频对齐的问题，同时避免表情泄漏和面部遮挡问题。

Nari Labs开源文本转语音模型Dia：生成自然对话与非语言提示

开源文本转语音（TTS）模型，能够生成高度逼真的对话语音，并支持情感语调、非语言提示（如笑声、咳嗽）以及声音克隆功能。

字节MegaTTS3：轻量化语音合成模型

MegaTTS3 是由字节跳动与浙江大学合作开发的一款轻量级文本转语音（TTS）模型，以高效、轻量化和高质量语音合成为特点。

ElevenLabs Text to Bark：全球首款为狗狗设计的AI语音合成工具

全球首款专为狗狗设计的文本转语音（TTS）模型，通过模仿狗狗的叫声，为宠物主人提供与爱宠“对话”的全新体验。

MiniMax Audio API：开启智能语音合成新时代

前沿的文本转语音工具，凭借其强大的语音合成能力和丰富的应用场景，正在改变人们与声音交互的方式。

MiniMax Audio：创建逼真语音的智能工具

专注于创建逼真语音的音频生成工具，通过先进的语音合成技术，为用户提供高质量的语音输出，广泛应用于多种场景。