智谱 AI 输入法:桌面端语音转写翻译一站式神器
语音大模型
智谱 AI 输入法:桌面端语音转写翻译一站式神器

在 PC 上“动嘴不动手”,即可把语音实时转成文字、翻译、改写,并同步开源 GLM-ASR 模型供开发者二次定制。

开通正版Chatgpt账号联系QQ:515002667
在 PC 上“动嘴不动手”,即可把语音实时转成文字、翻译、改写,并同步开源 GLM-ASR 模型供开发者二次定制。
1 主要功能
1.1 语音转文字:普通话、英语、粤语、四川话等 12 种语言方言,实时转写准确率 ≥ 98%。
1.2 智能翻译:说中文出英文,或反向互译,支持 60+ 语言,自动识别语境。
1.3 文本改写:一键把口语变成书面语、商务邮件、小红书文案等 8 种风格。
1.4 离线/在线双模式:Nano 端侧模型 200 MB,断网也能跑;云端大模型精度更高。
1.5 语音指令:用“换行”“删除上一句”“发送”等口令直接控制输入,无需键盘。
1.6 个性化词库:自动学习用户人名、专业术语,后续识别越用越准。
2 技术原理
2.1 GLM-ASR 架构:基于 GLM 通用语言模型,融合 Conformer 编码器 + 双向 LSTM 语言模型,端到端 CTC/Attention 混合损失。
2.2 流式推理:采用动态块注意力,每 300 ms 输出一次结果,延迟 < 400 ms。
2.3 端侧量化:INT8 权重压缩 + 动态剪枝,CPU 占用 < 8%,笔记本续航无感。
2.4 多任务联合:ASR、标点、时间戳、说话人分离一次性输出,减少级联误差。
2.5 开源协议:模型权重 Apache 2.0,代码 MIT,允许商用与二次分发。
3 应用场景
3.1 办公写作:会议录音实时转纪要,说稿即出 Word。
3.2 外语交流:与海外客户开会时,中文说完自动出英文句,字幕级体验。
3.3 视频字幕:UP 主录屏同期声直接生成 srt,节省后期 80% 时间。
3.4 无障碍输入:肢体不便人群用语音完成论文、代码注释、聊天。
3.5 教育课堂:教师讲课同步生成板书文字,课后一键发给学生。
4 使用方法
4.1 下载:官网或 GitHub Releases 获取 Windows/macOS 安装包,一键安装。
4.2 注册:新用户手机验证即送 2000 积分,可抵扣 28 天云端大模型流量。
4.3 设置:选择“在线/离线”模式、语言、快捷键(默认 F6 开关麦克风)。
4.4 输入:在任意文本框点击麦克风图标,或长按自定义快捷键,开始说话即可见文字。
4.5 翻译/改写:选中文字 → 点悬浮球 → 选择“中→英”或“口语→书面语”立即替换。
4.6 词库:设置→个人词库→添加专业术语,后续自动高准识别。
5 适用人群
  • 每天写邮件、做纪要的白领与行政
  • 需要制作双语字幕的自媒体创作者
  • 码农/技术博主(写注释、文档)
  • 外语学习者、跨境贸易销售
  • 手部障碍、长时间打字的颈椎病患者
6 优缺点介绍
优点
  • 开源可改,开发者能自行蒸馏更小模型或接入业务系统。
  • 端侧离线,保护商业隐私,飞机高铁也能用。
  • 支持语音指令,彻底解放双手。
  • 新用户 28 天免费,足够验证效果。
缺点
  • 端侧模型在嘈杂环境识别率下降 5–8%,需手动切换云端。
  • 目前桌面端仅支持 Windows/macOS,Linux 需自行编译。
  • 翻译风格偏向通用,专业领域(医学、法律)仍需人工润色。
  • 积分用完后云端按小时计费,高频用户成本高于普通输入法会员。
标签推荐:语音识别、AI输入法、实时翻译、开源模型、办公效率、无障碍工具

相关导航