Qwen3-Omni ：阿里云开源的端到端全模态大模型

AI开源项目多模态大模型

Qwen3-Omni 是阿里云开源的端到端全模态大模型，能同时听懂、看懂、说清 119 种语言，实时输出文本与自然语音。

链接直达手机查看

一、简介
Qwen3-Omni 是阿里云开源的端到端全模态大模型，能同时听懂、看懂、说清 119 种语言，实时输出文本与自然语音。

二、主要功能

全模态输入：文本、图像、音频、视频一次性投喂，无需额外编码器。
实时双输出：流式文本与自然人声同步生成，支持 19 种语音输入、10 种语音输出。
混合推理：内置“快思考-秒级响应 / 慢思考-深度推理”双模式，可动态切换。
细粒度控制：通过系统提示词即可调节语速、音色、情感、输出格式，无需微调。
附件能力：开源音频字幕模型 Qwen3-Omni-Captioner，直接生成低幻觉、高细节的声音描述。

三、技术原理

Thinker-Talker MoE 架构：Thinker 负责多模态语义理解，Talker 专注语音 token 建模，两路专家网络稀疏激活，降低 70% 推理算力。
AuT 预训练：Audio-text 交替训练策略，先文本后音频再混合，保证文本/图像精度不下降的同时提升音视频 SOTA 表现。
多码本量化：采用分层离散码本表示语音， streaming 阶段并行解码，端到端延迟 <500 ms。
四阶段训练流程：长链冷启动→强化学习→思维模式融合→通用对齐，兼顾推理深度与对话流畅度。
128 K 长上下文 + Flash-Attention 2：单轮可处理 1 小时音频或 300 页文档，显存占用仅为同性能模型 1/3。

四、应用场景

实时会议：多语种同声传译、自动纪要、说话人区分。
教育直播：老师板书+讲解同步生成可搜索字幕与语音回放。
客服中心：电话语音直接输出结构化工单，支持方言与嘈杂环境。
无障碍：为视障用户朗读网页、描述视频画面；为听障用户把语音实时转文字并高亮关键信息。
内容创作：一键把 4K 视频生成多语言配音与字幕，保持口型同步。

五、使用方法

在线体验：登录“通义听悟”网页或阿里云 DashScope API，上传文件即可返回文本+语音。
本地部署：
a. 拉取官方 Docker：docker pull qwenllm/qwen3-omni:latest
b. 单卡 24G 可跑 30B-A3B MoE 版：docker run --gpus all -p 8000:8000 qwenllm/qwen3-omni
c. 通过 OpenAI-compatible 接口调用，代码零改动。
高级定制：
a. 克隆 GitHub 仓库，使用 ms-swift 框架做 LoRA 微调，仅需 8×A100 训练 3 小时即可让模型学会私有领域术语。
b. 修改 system prompt 控制输出风格，例如“用 10 岁小朋友能听懂的中文回答”。

六、适用人群

开发者：需要一站式语音+文本+视觉能力的 SaaS 或 APP 后台。
企业客服：想用一个模型解决 IVR、工单、质检、翻译全部环节。
教育/媒体机构：批量生产多语言可访问内容。
研究者：探索全模态对齐、语音生成、端到端 ASR-STT 任务。
无障碍组织：为视听障碍人群提供低成本、高鲁棒的辅助方案。

七、优缺点
优点

真正端到端：告别“ASR+LLM+TTS”三段式拼接，误差不再级联。
多语言覆盖广：119 种文本、19 种语音输入、10 种语音输出，小语种友好。
开源协议宽松：Apache 2.0，可商用、可二次分发。
显存占用低：235B 总参数仅激活 22B，4×H20 即可部署满血版。

缺点

硬件门槛：若想本地跑满 235B 仍需 4 张 80G 级显卡，个人开发者成本偏高。
语音情感有限：虽然支持语速/音高控制，但复杂歌唱、情感模仿离专业配音级仍有差距。
视频时序定位：对“第 15 秒出现的红色汽车”类细粒度时序问答准确率有待提升。
中文方言覆盖不足：粤语、四川话可识别，但县级方言错误率高于普通话 2-3 倍。

全模态大模型、实时语音交互、多语言翻译、开源工具、企业级 SaaS、教育技术、无障碍辅助

相关导航

Meta MobileLLM 模型

Meta MobileLLM是Meta（前Facebook）推出的专为移动设备设计和优化的大型语言模型，旨在解决云计算成本上升和延迟问题，使其非常适合在资源受限的设备上运行。

视界一粟 YiSu

WorldDreamer 是一个由清华大学团队开发的先进的视频生成模型，它能够全面理解视觉动态，并在多种场景下生成视频。这个模型在图像到视频合成、文本到视频生成、视频修复、视频风格化甚至动作到视频生成等方面表现出色。

腾讯混元 HunyuanOCR：10 亿参数轻量型 SOTA 级 OCR 模型

腾讯混元开源的 HunyuanOCR 是一款仅 10 亿参数的轻量级 OCR 模型，依托混元原生多模态架构，在多项权威测评中斩获 SOTA 成绩，支持多语种处理与多场景应用。

Step1X-Edit：开源图像编辑模型，开启智能创作新时代

Stepfun AI 团队推出的开源图像编辑模型，能够通过人工智能技术实现高效、智能的图像编辑与创作。

瑞士开源大语言模型Apertus

Apertus是由瑞士联邦理工学院（EPFL）、苏黎世联邦理工学院（ETH Zurich）和瑞士国家超级计算中心（CSCS）联合开发的首个完全开源的大语言模型。

免责声明：本站为个人资讯、工具类学习博客，所发布的一切形式的内容，包括但不限于文字、链接、工具、图片、视频、软件等，仅限用于学习和研究目的，不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，如有侵权请联系本站删除下架，您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。访问和下载本站内容，说明您已同意上述条款。本站为非盈利性站点，本站不贩卖软件，所有内容不作为商业行为，点击、使用相关工具时请注意甄别，谨防上当受骗。咨询联系：yumiok88@gmail.com.