ZAYA1:全球首个纯 AMD 训练 MoE 大模型

多模态大模型

ZAYA1 是 AMD 与 IBM 及 Zyphra 合作推出的全球首个全程基于 AMD 硬件训练的混合专家基础模型，预训练数据达 14 万亿 tokens，在数学和 STEM 推理领域表现出色，综合性能对标 Qwen3 系列。

链接直达手机查看

一、主要功能

超强专业领域推理：在未经指令微调的情况下，在数学以及 STEM 领域的复杂推理任务上表现接近 Qwen3 专业版，同时在 cmath 和 ocw - math 等数学相关基准测试中表现突出，显著优于 SmolLM3、Phi4 等主流开源模型。
高效数据处理：依托 14 万亿 tokens 的庞大预训练数据和渐进式课程学习策略，既能处理初期的非结构化网络文本，也能高效应对中期的数学公式、代码库等结构化数据，还能理解后期引入的专业科学文献内容。
优化的资源利用：通过 CCA 注意力机制大幅降低计算复杂度和显存占用，其中计算复杂度降低 40%，显存占用减少 35%，同时提升长上下文吞吐能力，解决了 Transformer 架构在长序列处理中的计算瓶颈。
均衡的专家模块协作：经重新设计的路由分配算法，改善了混合专家模型常见的专家负载不均问题，让专家模块专业化程度提升 60%，进而增强模型整体的表达能力，即便在稀疏度达 70% 时仍能保持较高的资源利用率。

二、技术原理

混合专家模型架构：核心采用 MoE 架构，该架构将模型拆分为多个专家模块，不同专家模块专注处理不同类型的任务数据。同时搭配新设计的路由结构，优化了专家粒度并加入负载均衡正则化，使 top - 2 路由准确率提升 2.3 个百分点，保障专家模块高效协作。
CCA 注意力机制：即压缩卷积注意力机制，通过在传统注意力模块中嵌入卷积操作并采用压缩嵌入注意力头，在减少计算量和显存占用的同时，提升长上下文数据的处理效率，为模型处理长序列数据提供技术支撑。
全栈硬件适配优化：深度适配 AMD 技术栈，依托由 128 个计算节点组成的专用集群，每个节点配备 8 块 AMD Instinct MI300X GPU，借助 Infinity Fabric 高速互联技术实现 1024 块 GPU 协同运算，搭配 Pensando 网络架构与 ROCm 软件平台，构建从硬件到算法的全栈优化体系，峰值算力可达 750 PFLOPs。
渐进式课程学习策略：训练初期利用非结构化网络文本筑牢基础能力，中期引入结构化数据强化逻辑推理能力，后期通过科学文献提升专业领域理解，分阶段提升模型综合能力与专业素养。

三、应用场景

学术科研领域：可助力科研人员处理 STEM 领域的复杂数据推理、科学实验数据分析以及学术文献解读等工作，比如辅助解析物理实验数据、推导数学公式以及梳理化学领域的反应规律等。
编程开发领域：能够处理各类代码相关任务，像代码逻辑审核、简单代码编写、代码问题排查等，为开发人员提供代码层面的辅助支持，提升编程效率。
AI 算力测试与验证：作为首个全程基于 AMD 硬件训练的大型 MoE 模型，可用于验证 AMD Instinct MI300X GPU 搭配 ROCm 平台在大规模模型训练中的可行性，为后续同类硬件生态下的模型训练提供参考范式。
教育领域：可用于辅助数学、理工科课程的教学，比如为学生提供复杂数学题的推理思路、解析理工科教材中的难点知识，同时也能为教师提供教学案例的拓展分析。

四、使用方法

等待正式版本发布：当前 ZAYA1 为基础模型预览版，Zyphra 团队计划未来三个月内发布完整版本，后续可关注官方发布渠道获取正式版本。
依托适配硬件环境使用：若需进行模型相关的训练或本地部署，需搭建适配的 AMD 硬件环境，如采用 AMD Instinct MI300X GPU，搭配 Pensando 网络和 ROCm 软件平台，以保障模型稳定运行。
调用后续开放接口：据官方规划，2026 年第一季度将推出指令微调版和强化学习微调版，届时会开放 API 接口及模型权重下载服务，用户可通过调用接口或下载权重的方式，在合规前提下进行二次开发与应用。

五、适用人群

AI 领域研发人员：包括专注于大模型架构研究、硬件与模型适配研究的科研人员，可借助该模型研究 MoE 架构优化、注意力机制创新等技术，同时验证 AMD 硬件生态的模型训练能力。
STEM 领域从业者：涵盖数学研究者、物理、化学、生物等理工科科研人员以及相关领域工程师，可利用模型进行复杂推理、数据处理和文献解读等工作。
科技企业技术团队：尤其是计划基于 AMD 硬件搭建 AI 训练平台的企业技术团队，可通过该模型探索硬件与模型的适配方案，为企业内部 AI 应用开发提供参考。
开源社区开发者：后续模型开放权重后，开源社区开发者可基于该模型进行二次开发，拓展更多细分场景下的应用，推动相关开源生态发展。

六、优缺点介绍

优点
1. 硬件生态突破性强：作为全球首个纯 AMD 硬件训练的大型 MoE 模型，验证了 AMD 硬件在大规模 AI 模型训练中的潜力，为 AI 算力领域提供了非英伟达体系的新选择。
2. 性能表现优异：综合性能对标行业标杆 Qwen3 系列，在数学和 STEM 领域推理能力突出，且通过架构创新实现了计算效率与显存利用率的双重优化。
3. 训练稳定性高：借助定制化训练框架，训练集群在长达数月的训练过程中可用性保持在 99.9% 以上，为模型训练的顺利推进提供了保障。
缺点
1. 版本尚不成熟：目前仅推出预览版，功能不够完善，缺少多模态处理能力，需等待完整版本发布才能满足更多样化需求。
2. 硬件依赖度高：模型深度适配 AMD 硬件栈，若用户使用其他品牌硬件，可能无法发挥其最佳性能，且搭建适配硬件环境的成本较高。
3. 应用场景待拓展：当前主要优势集中在数学和 STEM 领域，相比部分全场景适配模型，在日常闲聊、多模态交互等场景的应用能力尚未得到充分验证，后续需进一步优化拓展。

混合专家模型、AI 基础模型、STEM 推理工具、AMD 生态适配模型

相关导航

MiniCPM-V4.5：高效多模态端侧大语言模型

MiniCPM-V4.5是由面壁智能与清华大学NLP实验室联合推出的一款多模态端侧大语言模型，它支持单图、多图及视频理解，并在高分辨率图像处理、OCR以及多语言支持等方面表现出色。

Copilot Vision：智能视觉助手，开启全新交互体验

集成在 Microsoft Edge 浏览器中的 AI 助手，能够理解用户浏览网页的上下文，并通过语音与用户实时互动，提供浏览辅助。

Qwen2-VL

Qwen2-VL是一个基于自然语言处理（NLP）技术的语音到文本（Voice-to-Text）和文本到语音（Text-to-Speech, TTS）转换工具，旨在提供高质量的语音转换服务。

零一万物大模型开放平台

零一万物大模型开放平台简介零一万物大模型开放平台是一个提供多种AI模型服务的平台，旨在满足不同用户对文本生成[…]

Step-DeepResearch：高性价比端到端深度研究代理模型

Step-DeepResearch 是阶跃星辰推出的一款高性价比、端到端深度研究代理模型，专为开放式研究场景中的自主信息探索和专业报告生成设计，能通过动态循环的推理、行动与反思，高效完成复杂研究任务。

免责声明：本站为个人资讯、工具类学习博客，所发布的一切形式的内容，包括但不限于文字、链接、工具、图片、视频、软件等，仅限用于学习和研究目的，不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，如有侵权请联系本站删除下架，您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。访问和下载本站内容，说明您已同意上述条款。本站为非盈利性站点，本站不贩卖软件，所有内容不作为商业行为，点击、使用相关工具时请注意甄别，谨防上当受骗。咨询联系：yumiok88@gmail.com.