语音转文字（语音识别） | 网址分类目录 | AI工具箱

语音转文字（语音识别）

腾讯搜狗输入法 20.0 AI 版本下载

腾讯搜狗输入法 20.0 是腾讯推出的全面 AI 化升级输入法版本，以 AI 语音、AI 翻译、AI 打字三大核心功能升级为亮点，大幅提升输入效率与智能化体验，适配多场景输入需求。

腾讯ARC团队的AudioStory模型：开启AI音频生成新时代

腾讯ARC团队推出的AudioStory模型，能够根据文字描述生成高质量的音频内容，具有强大的叙事能力。

GPT-Realtime：开启语音交互新时代

GPT-Realtime是OpenAI推出的一款强大的语音到语音模型，采用端到端Speech-to-Speech架构，能够直接生成并处理语音，省去常规的文本转换步骤，广泛应用于多种语音交互场景。

Fun-ASR：钉钉与通义实验室联合发布的语音识别大模型

Fun-ASR是由钉钉与通义实验室联合发布的新一代语音识别大模型，旨在为企业提供更强大、灵活的语音转写能力。

OpenAI.fm：探索文本到语音的新境界

为开发者提供的交互式演示平台，用于体验 OpenAI API 中的新型文本到语音模型，助力开发者快速构建相关应用。

ElevenLabs Scribe v1：语音转文本模型，多语言高精度转录领先

Scribe v1支持99种语言的高精度转录，尤其在英语（准确率96.7%）和意大利语（准确率98.7%）上表现出色。

Step-Audio：阶跃开源的130B语音模型

一款强大的开源语音交互模型，能够实现语音识别、对话生成、情感克隆和多语言支持，为用户提供高质量的实时语音交互体验。

Twelve Labs 多模态AI视频理解平台

一个多模态人工智能平台，它能够像人类一样理解视频内容，帮助用户在任何应用中实现视频内容的深度分析和利用。

Deepgram 语音 AI

一个提供语音到文本、文本到语音以及语言理解 API 的语音 AI 平台。它被全球顶尖企业、对话式 AI 领导者和初创公司所信赖，适用于医疗转录到自主代理等多种场景。

Qwen2-VL是一个基于自然语言处理（NLP）技术的语音到文本（Voice-to-Text）和文本到语音（Text-to-Speech, TTS）转换工具，旨在提供高质量的语音转换服务。

BibiGPT AI 音视频助理插件

BibiGPT是一款基于人工智能的视频总结工具，具有广泛的应用范围和强大的功能。支持多种平台，包括哔哩哔哩、YouTube、抖音等，广泛应用于学习助手和内容创作领域。

Voicenotes 智能笔记

Voicenotes 是一款以录音为核心的智能笔记应用程序，它通过先进的人工智能技术，为用户提供了一个方便快捷的记录和搜索语音笔记的平台。

HitPaw 是一个提供强大视频、音频和图片解决方案的平台，由一系列多媒体工具组成，旨在帮助用户在各种媒体内容上进行创作、编辑和转换。

Fireflies.ai

Fireflies.ai是一个创新平台，它使用AI来转录、总结和分析录制的对话。这个AI助手是一个虚拟笔记器，非常适合捕捉讲座、课堂讨论和小组项目。它与在线学习环境中流行的视频会议工具无缝集成，确保保留每个课程细节。

Glarity插件支持多种主流浏览器，包括Chrome、Edge、Safari、Firefox和Opera等，其核心功能包括高效总结、镜像翻译、跨语言阅读、轻松写作以及智能问答和聊天。

BibiGPT是一款基于人工智能的视频总结工具，具有广泛的应用范围和强大的功能。支持多种平台，包括哔哩哔哩、YouTube、抖音等，广泛应用于学习助手和内容创作领域。

Microsoft Clipchamp

Clipchamp 是微软365新推出的视频编辑器,可以简化视频剪辑编辑任务,让用户轻松制作高质量视频。它提供直观的拖拽编辑工具、定制化模板、特效和过渡效果,以及基于AI的语音转文本、自动字幕等功能,助力用户讲述自己的故事。

Supernormal

Supernormal是一款由Suki提供的人工智能会议助手工具，它通过自动化的方式帮助用户更高效地组织、参与和回顾会议。该工具利用先进的AI技术，提供了一系列强大的功能，旨在改善会议体验和提高工作生产力。

悦音配音

悦音配音是一款集成了人工智能技术的配音工具，它能够将文本转换为自然流畅的语音，广泛应用于各种场景中的语音合成需求。该工具通过深度学习算法，模拟人类的发音习惯和语调变化，生成接近真人发音的语音。

魔音工坊（配音软件）

魔音工坊，先进的配音工具和高效多人协同创作工具，可以在线将文字转成语音的智能配音产品，可提供不同性别、不同口音的真人声音,在你输入文字后直接配音。

通义听悟（带教程）

通义听悟是阿里云推出的一款音视频领域AI产品，支持中英粤多语言识别、实时翻译、云盘音视频一键转、悬浮字幕、实时记录、全文概要、章节回顾、发言总结、问答回顾、关键词、待办事项等。知识类场景如职场开会、上课复习、媒体采访、分析师访谈、新媒体工作者整理视频、外语交流等特别适用。

只需单击或快捷键即可总结会议期间的关键时刻。我们的人工智能会议笔记将立即总结主题，以便您可以专注于您的对话。tl;dv 是您会议中发生的最好的事情。