ZAYA1:全球首个纯 AMD 训练 MoE 大模型
多模态大模型
ZAYA1:全球首个纯 AMD 训练 MoE 大模型

ZAYA1 是 AMD 与 IBM 及 Zyphra 合作推出的全球首个全程基于 AMD 硬件训练的混合专家基础模型,预训练数据达 14 万亿 tokens,在数学和 STEM 推理领域表现出色,综合性能对标 Qwen3 系列。

开通正版Chatgpt账号联系QQ:515002667
ZAYA1 是 AMD 与 IBM 及 Zyphra 合作推出的全球首个全程基于 AMD 硬件训练的混合专家基础模型,预训练数据达 14 万亿 tokens,在数学和 STEM 推理领域表现出色,综合性能对标 Qwen3 系列。

一、主要功能

  1. 超强专业领域推理:在未经指令微调的情况下,在数学以及 STEM 领域的复杂推理任务上表现接近 Qwen3 专业版,同时在 cmath 和 ocw - math 等数学相关基准测试中表现突出,显著优于 SmolLM3、Phi4 等主流开源模型。
  2. 高效数据处理:依托 14 万亿 tokens 的庞大预训练数据和渐进式课程学习策略,既能处理初期的非结构化网络文本,也能高效应对中期的数学公式、代码库等结构化数据,还能理解后期引入的专业科学文献内容。
  3. 优化的资源利用:通过 CCA 注意力机制大幅降低计算复杂度和显存占用,其中计算复杂度降低 40%,显存占用减少 35%,同时提升长上下文吞吐能力,解决了 Transformer 架构在长序列处理中的计算瓶颈。
  4. 均衡的专家模块协作:经重新设计的路由分配算法,改善了混合专家模型常见的专家负载不均问题,让专家模块专业化程度提升 60%,进而增强模型整体的表达能力,即便在稀疏度达 70% 时仍能保持较高的资源利用率。

二、技术原理

  1. 混合专家模型架构:核心采用 MoE 架构,该架构将模型拆分为多个专家模块,不同专家模块专注处理不同类型的任务数据。同时搭配新设计的路由结构,优化了专家粒度并加入负载均衡正则化,使 top - 2 路由准确率提升 2.3 个百分点,保障专家模块高效协作。
  2. CCA 注意力机制:即压缩卷积注意力机制,通过在传统注意力模块中嵌入卷积操作并采用压缩嵌入注意力头,在减少计算量和显存占用的同时,提升长上下文数据的处理效率,为模型处理长序列数据提供技术支撑。
  3. 全栈硬件适配优化:深度适配 AMD 技术栈,依托由 128 个计算节点组成的专用集群,每个节点配备 8 块 AMD Instinct MI300X GPU,借助 Infinity Fabric 高速互联技术实现 1024 块 GPU 协同运算,搭配 Pensando 网络架构与 ROCm 软件平台,构建从硬件到算法的全栈优化体系,峰值算力可达 750 PFLOPs。
  4. 渐进式课程学习策略:训练初期利用非结构化网络文本筑牢基础能力,中期引入结构化数据强化逻辑推理能力,后期通过科学文献提升专业领域理解,分阶段提升模型综合能力与专业素养。

三、应用场景

  1. 学术科研领域:可助力科研人员处理 STEM 领域的复杂数据推理、科学实验数据分析以及学术文献解读等工作,比如辅助解析物理实验数据、推导数学公式以及梳理化学领域的反应规律等。
  2. 编程开发领域:能够处理各类代码相关任务,像代码逻辑审核、简单代码编写、代码问题排查等,为开发人员提供代码层面的辅助支持,提升编程效率。
  3. AI 算力测试与验证:作为首个全程基于 AMD 硬件训练的大型 MoE 模型,可用于验证 AMD Instinct MI300X GPU 搭配 ROCm 平台在大规模模型训练中的可行性,为后续同类硬件生态下的模型训练提供参考范式。
  4. 教育领域:可用于辅助数学、理工科课程的教学,比如为学生提供复杂数学题的推理思路、解析理工科教材中的难点知识,同时也能为教师提供教学案例的拓展分析。

四、使用方法

  1. 等待正式版本发布:当前 ZAYA1 为基础模型预览版,Zyphra 团队计划未来三个月内发布完整版本,后续可关注官方发布渠道获取正式版本。
  2. 依托适配硬件环境使用:若需进行模型相关的训练或本地部署,需搭建适配的 AMD 硬件环境,如采用 AMD Instinct MI300X GPU,搭配 Pensando 网络和 ROCm 软件平台,以保障模型稳定运行。
  3. 调用后续开放接口:据官方规划,2026 年第一季度将推出指令微调版和强化学习微调版,届时会开放 API 接口及模型权重下载服务,用户可通过调用接口或下载权重的方式,在合规前提下进行二次开发与应用。

五、适用人群

  1. AI 领域研发人员:包括专注于大模型架构研究、硬件与模型适配研究的科研人员,可借助该模型研究 MoE 架构优化、注意力机制创新等技术,同时验证 AMD 硬件生态的模型训练能力。
  2. STEM 领域从业者:涵盖数学研究者、物理、化学、生物等理工科科研人员以及相关领域工程师,可利用模型进行复杂推理、数据处理和文献解读等工作。
  3. 科技企业技术团队:尤其是计划基于 AMD 硬件搭建 AI 训练平台的企业技术团队,可通过该模型探索硬件与模型的适配方案,为企业内部 AI 应用开发提供参考。
  4. 开源社区开发者:后续模型开放权重后,开源社区开发者可基于该模型进行二次开发,拓展更多细分场景下的应用,推动相关开源生态发展。

六、优缺点介绍

  1. 优点
    1. 硬件生态突破性强:作为全球首个纯 AMD 硬件训练的大型 MoE 模型,验证了 AMD 硬件在大规模 AI 模型训练中的潜力,为 AI 算力领域提供了非英伟达体系的新选择。
    2. 性能表现优异:综合性能对标行业标杆 Qwen3 系列,在数学和 STEM 领域推理能力突出,且通过架构创新实现了计算效率与显存利用率的双重优化。
    3. 训练稳定性高:借助定制化训练框架,训练集群在长达数月的训练过程中可用性保持在 99.9% 以上,为模型训练的顺利推进提供了保障。
  2. 缺点
    1. 版本尚不成熟:目前仅推出预览版,功能不够完善,缺少多模态处理能力,需等待完整版本发布才能满足更多样化需求。
    2. 硬件依赖度高:模型深度适配 AMD 硬件栈,若用户使用其他品牌硬件,可能无法发挥其最佳性能,且搭建适配硬件环境的成本较高。
    3. 应用场景待拓展:当前主要优势集中在数学和 STEM 领域,相比部分全场景适配模型,在日常闲聊、多模态交互等场景的应用能力尚未得到充分验证,后续需进一步优化拓展。
混合专家模型、AI 基础模型、STEM 推理工具、AMD 生态适配模型

相关导航