一、人物简介
Noam Shazeer 是一位在人工智能领域极具影响力的人物,被誉为现代大语言模型技术的奠基者之一。他出生于1974年,毕业于杜克大学,主修数学和计算机科学。2000年,他加入谷歌,成为公司早期员工之一,并在谷歌工作了17年。
二、技术贡献
1、Transformer架构的奠基者
Noam Shazeer 是 Transformer 架构的核心贡献者之一。2017年,他作为第一作者之一发表了论文《Attention Is All You Need》,该论文提出了 Transformer 架构,彻底改变了自然语言处理领域。Transformer 架构凭借其并行计算能力和优异的性能,成为现代大语言模型的基础,广泛应用于 GPT 系列、Bard 等领先模型。
2、稀疏门控专家(MoE)架构
Shazeer 还参与引入了稀疏门控专家(MoE)架构,极大地突破了模型参数规模的限制,使模型参数能够达到1370亿甚至超过1.6万亿。这一技术通过动态激活子网络,显著提升了模型的计算效率和训练速度。
3、其他技术贡献
他还开发了 Adafactor 优化器,解决了大模型训练中的内存瓶颈问题。此外,他提出的 MultiQueryAttention(MQA)技术提升了 Transformer 模型的推理速度,而 Gated Linear Layer(GLU)则增强了模型处理长序列数据的能力。
三、创业与回归
2021年,Noam Shazeer 离开谷歌,与同事 Daniel De Freitas 创办了 Character.AI。Character.AI 是一个允许用户与个性化 AI 角色互动的平台,用户可以通过该平台与名人互动、进行角色扮演,甚至进行心理疗愈。然而,由于资源限制,Character.AI 在发展过程中遇到了一些挑战。2024年,谷歌以约25亿美元收购了 Character.AI,Shazeer 也重返谷歌,担任 Gemini AI 项目的联合技术负责人。
四、对行业的影响
Noam Shazeer 的工作不仅奠定了现代大语言模型的基础,还推动了 AI 技术的持续创新。他的研究成果多次引领行业发展方向,甚至在技术瓶颈出现时提供关键突破。如今,他重返谷歌,继续在 Gemini AI 项目中发挥重要作用,有望进一步推动 AI 技术的发展。
Noam Shazeer 的传奇经历和卓越贡献,使他成为人工智能领域不可或缺的重要人物。