
一、简介
Qwen3-Omni 是阿里云开源的端到端全模态大模型,能同时听懂、看懂、说清 119 种语言,实时输出文本与自然语音。
Qwen3-Omni 是阿里云开源的端到端全模态大模型,能同时听懂、看懂、说清 119 种语言,实时输出文本与自然语音。
二、主要功能
-
全模态输入:文本、图像、音频、视频一次性投喂,无需额外编码器。
-
实时双输出:流式文本与自然人声同步生成,支持 19 种语音输入、10 种语音输出。
-
混合推理:内置“快思考-秒级响应 / 慢思考-深度推理”双模式,可动态切换。
-
细粒度控制:通过系统提示词即可调节语速、音色、情感、输出格式,无需微调。
-
附件能力:开源音频字幕模型 Qwen3-Omni-Captioner,直接生成低幻觉、高细节的声音描述。
三、技术原理
-
Thinker-Talker MoE 架构:Thinker 负责多模态语义理解,Talker 专注语音 token 建模,两路专家网络稀疏激活,降低 70% 推理算力。
-
AuT 预训练:Audio-text 交替训练策略,先文本后音频再混合,保证文本/图像精度不下降的同时提升音视频 SOTA 表现。
-
多码本量化:采用分层离散码本表示语音, streaming 阶段并行解码,端到端延迟 <500 ms。
-
四阶段训练流程:长链冷启动→强化学习→思维模式融合→通用对齐,兼顾推理深度与对话流畅度。
-
128 K 长上下文 + Flash-Attention 2:单轮可处理 1 小时音频或 300 页文档,显存占用仅为同性能模型 1/3。
四、应用场景
-
实时会议:多语种同声传译、自动纪要、说话人区分。
-
教育直播:老师板书+讲解同步生成可搜索字幕与语音回放。
-
客服中心:电话语音直接输出结构化工单,支持方言与嘈杂环境。
-
无障碍:为视障用户朗读网页、描述视频画面;为听障用户把语音实时转文字并高亮关键信息。
-
内容创作:一键把 4K 视频生成多语言配音与字幕,保持口型同步。
五、使用方法
-
在线体验:登录“通义听悟”网页或阿里云 DashScope API,上传文件即可返回文本+语音。
-
本地部署:
a. 拉取官方 Docker:docker pull qwenllm/qwen3-omni:latest
b. 单卡 24G 可跑 30B-A3B MoE 版:docker run --gpus all -p 8000:8000 qwenllm/qwen3-omni
c. 通过 OpenAI-compatible 接口调用,代码零改动。 -
高级定制:
a. 克隆 GitHub 仓库,使用 ms-swift 框架做 LoRA 微调,仅需 8×A100 训练 3 小时即可让模型学会私有领域术语。
b. 修改 system prompt 控制输出风格,例如“用 10 岁小朋友能听懂的中文回答”。
六、适用人群
-
开发者:需要一站式语音+文本+视觉能力的 SaaS 或 APP 后台。
-
企业客服:想用一个模型解决 IVR、工单、质检、翻译全部环节。
-
教育/媒体机构:批量生产多语言可访问内容。
-
研究者:探索全模态对齐、语音生成、端到端 ASR-STT 任务。
-
无障碍组织:为视听障碍人群提供低成本、高鲁棒的辅助方案。
七、优缺点
优点
优点
-
真正端到端:告别“ASR+LLM+TTS”三段式拼接,误差不再级联。
-
多语言覆盖广:119 种文本、19 种语音输入、10 种语音输出,小语种友好。
-
开源协议宽松:Apache 2.0,可商用、可二次分发。
-
显存占用低:235B 总参数仅激活 22B,4×H20 即可部署满血版。
缺点
-
硬件门槛:若想本地跑满 235B 仍需 4 张 80G 级显卡,个人开发者成本偏高。
-
语音情感有限:虽然支持语速/音高控制,但复杂歌唱、情感模仿离专业配音级仍有差距。
-
视频时序定位:对“第 15 秒出现的红色汽车”类细粒度时序问答准确率有待提升。
-
中文方言覆盖不足:粤语、四川话可识别,但县级方言错误率高于普通话 2-3 倍。
全模态大模型、实时语音交互、多语言翻译、开源工具、企业级 SaaS、教育技术、无障碍辅助
豆包大模型1.6是由字节跳动旗下火山引擎发布的一款强大的AI模型,具备深度思考、多模态理解和图形界面操作等能力,能够为企业提供高效、低成本的AI解决方案。