谷歌Gemini 1.5火速上线:采用MoE架构,实现100万上下文处理能力

 

谷歌Gemini 1.5火速上线:采用MoE架构,实现100万上下文处理能力

2024年2月16日,谷歌宣布推出其下一代AI模型——Gemini 1.5,该模型在机器学习和人工智能领域引起了广泛关注。Gemini 1.5以其强大的长上下文理解能力和MoE架构为特点,标志着谷歌在AI技术上的又一重大突破。

Gemini 1.5 Pro作为首个发布的版本,是一种中型多模态模型,经过优化,可以高效处理多种任务。其性能水平与谷歌迄今为止最大的模型1.0 Ultra相当,同时引入了长上下文理解方面的突破性实验特征。这一模型配备了128,000个token的上下文窗口,但更为令人瞩目的是,从今天开始,少数开发人员和企业客户可以通过AI Studio和Vertex AI的私人预览版,在最多100万个token的上下文窗口中进行尝试。

Gemini 1.5的成功得益于谷歌在Transformer和MoE架构方面的领先研究。传统Transformer模型通常是一个大型神经网络,而MoE模型则将其分解为更小的“专家”神经网络。这种架构允许模型根据输入类型选择性地激活最相关的专家路径,从而极大地提高了模型的效率。谷歌在MoE技术方面的创新使得Gemini 1.5能够更快地学习复杂任务并保持高质量,同时训练和服务效率也得到了显著提升。

AI模型的“上下文窗口”是处理信息的关键部分,由token组成。这些token可以是文字、图像、视频、音频或代码的一部分。上下文窗口越大,模型能够接收和处理的信息就越多,从而使其输出更加一致、相关和有用。通过一系列机器学习创新,Gemini 1.5 Pro将上下文窗口容量从最初的32,000个token增加到了100万个token。这意味着该模型可以一次性处理大量信息,包括1小时的视频、11小时的音频、超过30,000行代码或超过700,000个单词的文本。

Gemini 1.5 Pro的长上下文处理能力使其能够在给定提示内无缝分析、分类和总结大量内容。例如,当给出阿波罗11号登月任务的402页记录时,它能够推理整个文档中的对话、事件和细节。此外,该模型还能针对不同模式执行高度复杂的理解和推理任务,如分析视频中的情节点和事件,或推理出电影中容易被忽略的小细节。在代码方面,Gemini 1.5 Pro可以跨较长的代码块执行更相关的问题解决任务,提供有用的解决方案、修改和注释。

在文本、代码、图像、音频、视频评估综合面板上进行测试时,Gemini 1.5 Pro在用于开发大型语言模型(LLM)的基准测试中,87%的性能优于1.0 Pro。即使上下文窗口增加,该模型仍能保持高水平的性能。

谷歌CEO Sundar Pichai和DeepMind CEO Demis Hassabis对新模型进行了专门介绍。他们表示,Gemini 1.5的推出是谷歌在AI领域持续创新的一部分,将为用户和开发人员带来更强大、更有用的功能。随着AI技术的不断发展,我们期待着看到更多创新和突破,为人类带来更多便利和价值。

AD:精心整理了2000+好用的AI工具!点此获取

相关推荐

1 1

免费AI工具合集,点击进入

AI对话

玉米AI助手