
Qwen3.5 是阿里巴巴即将推出的新一代开源基座大模型,采用全新混合注意力机制,大概率为原生视觉理解 VLM 模型,计划春节期间开源并推出多规格模型版本,目前已完成多个主流 AI 开发框架的适配开发。
一、主要功能
- 多规格模型支持:预计开源 2B 密集模型与 35B-A3B MoE 模型,满足轻量部署与高性能推理的不同需求。
- 原生视觉理解:作为 VLM 模型,无需额外插件即可实现文本与视觉信息的融合处理,支持多模态输入任务。
- 全新注意力机制:搭载自研混合注意力机制,相比前代模型进一步提升推理效率与内容理解能力。
- 跨框架适配:已完成 HuggingFace Transformers、sglang、llama.cpp、LocalAI 等多个主流 AI 开发框架的适配开发,可直接在各类框架中调用。
- 文本与视觉双任务处理:兼顾纯文本生成、推理、编码等基础任务,以及图像理解、图文交互、视觉问答等多模态任务。
二、技术原理
- 混合注意力机制:采用阿里自研的全新混合注意力架构,优化注意力计算的效率与精度,平衡模型性能与部署成本。
- 原生 VLM 架构设计:将视觉理解模块与语言模型底层融合,而非简单的模块拼接,实现图文信息的深度交互与统一处理,提升多模态任务表现。
- MoE 混合专家模型设计:35B-A3B 版本采用混合专家架构,通过激活不同专家模块处理不同类型任务,在保证模型性能的同时降低推理资源消耗。
- 优化的旋转位置编码(RoPE):修复并优化了旋转位置编码的验证逻辑,提升长文本处理的准确性与稳定性。
- 轻量化密集模型设计:2B 密集模型采用精简的网络架构,适配端侧、边缘端等低资源环境的部署需求,兼顾轻量化与实用性。
- 统一的配置与模型加载:简化视觉与文本模型的配置逻辑,优化纯文本模型的加载流程,提升模型调用与部署的便捷性。
三、应用场景
- 端侧 / 边缘端 AI 应用:2B 密集模型可部署在手机、嵌入式设备、小型服务器等低资源环境,实现本地文本生成、简单图文问答等功能。
- 云端高性能推理:35B-A3B MoE 模型可部署在云端服务器,处理复杂的文本生成、逻辑推理、多模态视觉问答、图文创作等高端任务。
- AI 开发与二次定制:开发者可基于 HuggingFace 等适配框架,快速调用 Qwen3.5 模型进行二次开发,定制行业专属 AI 应用。
- 多模态产品研发:可应用于智能客服、视觉问答机器人、图文创作工具、智能分析系统等多模态 AI 产品的研发。
- 开源社区生态建设:作为开源模型,为 AI 研究人员、开发者提供基础模型底座,推动自然语言处理与计算机视觉融合的技术研究。
四、使用方法
- 框架直接调用:在已适配的 HuggingFace Transformers、sglang、llama.cpp 等框架中,通过简单的代码指令即可加载并调用 Qwen3.5 模型。
- 模型部署:2B 密集模型可直接进行端侧、本地部署;35B-A3B MoE 模型可通过云端服务器进行分布式部署,适配高并发场景。
- 单 / 多模态任务执行:纯文本任务可直接输入文本指令获取结果;多模态任务可同时输入文本与图像,实现图文交互与视觉理解。
- 二次开发与定制:基于开源的模型代码与权重,开发者可根据行业需求对模型进行微调、裁剪与功能定制,开发专属 AI 应用。
五、适用人群
- AI 开发者 / 工程师:需要基础大模型进行二次开发、产品研发的企业与个人开发者。
- AI 技术研究人员:从事自然语言处理、计算机视觉、多模态融合等领域研究的科研人员。
- 企业技术团队:需要部署轻量化或高性能 AI 模型,开发智能产品、提升业务效率的各行业企业技术团队。
- 开源技术爱好者:关注大模型技术、热衷开源项目探索与实践的技术爱好者。
- 端侧 AI 产品研发者:需要适配低资源环境,开发端侧、边缘端 AI 应用的研发人员。
六、优缺点介绍
优点
- 多规格选择:同时推出密集模型与 MoE 模型,满足从端侧轻量化到云端高性能的全场景部署需求。
- 原生多模态:底层融合视觉理解模块,多模态任务处理能力更优,无需额外插件适配。
- 跨框架适配:已完成多个主流 AI 框架的适配,开发者可直接在熟悉的框架中调用,降低使用门槛。
- 开源属性:全版本开源,无商用授权限制,适合企业与开发者进行二次开发与定制。
- 技术优化:采用全新混合注意力机制与优化的位置编码,模型性能与推理效率相比前代有明显提升。
缺点
- 暂未正式发布:目前仅完成代码适配,尚未正式开源发布,模型实际表现与稳定性待验证。
- MoE 模型部署复杂:35B-A3B MoE 模型架构相对复杂,对部署环境的技术要求较高,新手部署难度较大。
- 视觉能力细节未知:作为原生 VLM 模型,其视觉理解的精度、支持的图像格式与分辨率等细节尚未公布。
- 暂无实际应用案例:缺乏真实场景的应用案例与性能测试数据,开发者难以评估其实际适配性。
开源大模型、多模态模型、VLM 模型、MoE 模型、阿里模型、轻量化模型、云端推理模型
SkyReels-A3 是一款基于多模态输入的端到端框架,能够合成高保真且时间连贯的人类视频,支持通过音频等多模态输入生成高质量的长视频内容。