谷歌Gemini 1.5火速上线：采用MoE架构，实现100万上下文处理能力

谷歌Gemini 1.5火速上线：采用MoE架构，实现100万上下文处理能力

2024年2月16日，谷歌宣布推出其下一代AI模型——Gemini 1.5，该模型在机器学习和人工智能领域引起了广泛关注。Gemini 1.5以其强大的长上下文理解能力和MoE架构为特点，标志着谷歌在AI技术上的又一重大突破。

Gemini 1.5 Pro作为首个发布的版本，是一种中型多模态模型，经过优化，可以高效处理多种任务。其性能水平与谷歌迄今为止最大的模型1.0 Ultra相当，同时引入了长上下文理解方面的突破性实验特征。这一模型配备了128,000个token的上下文窗口，但更为令人瞩目的是，从今天开始，少数开发人员和企业客户可以通过AI Studio和Vertex AI的私人预览版，在最多100万个token的上下文窗口中进行尝试。

Gemini 1.5的成功得益于谷歌在Transformer和MoE架构方面的领先研究。传统Transformer模型通常是一个大型神经网络，而MoE模型则将其分解为更小的“专家”神经网络。这种架构允许模型根据输入类型选择性地激活最相关的专家路径，从而极大地提高了模型的效率。谷歌在MoE技术方面的创新使得Gemini 1.5能够更快地学习复杂任务并保持高质量，同时训练和服务效率也得到了显著提升。

AI模型的“上下文窗口”是处理信息的关键部分，由token组成。这些token可以是文字、图像、视频、音频或代码的一部分。上下文窗口越大，模型能够接收和处理的信息就越多，从而使其输出更加一致、相关和有用。通过一系列机器学习创新，Gemini 1.5 Pro将上下文窗口容量从最初的32,000个token增加到了100万个token。这意味着该模型可以一次性处理大量信息，包括1小时的视频、11小时的音频、超过30,000行代码或超过700,000个单词的文本。

Gemini 1.5 Pro的长上下文处理能力使其能够在给定提示内无缝分析、分类和总结大量内容。例如，当给出阿波罗11号登月任务的402页记录时，它能够推理整个文档中的对话、事件和细节。此外，该模型还能针对不同模式执行高度复杂的理解和推理任务，如分析视频中的情节点和事件，或推理出电影中容易被忽略的小细节。在代码方面，Gemini 1.5 Pro可以跨较长的代码块执行更相关的问题解决任务，提供有用的解决方案、修改和注释。

在文本、代码、图像、音频、视频评估综合面板上进行测试时，Gemini 1.5 Pro在用于开发大型语言模型(LLM)的基准测试中，87%的性能优于1.0 Pro。即使上下文窗口增加，该模型仍能保持高水平的性能。

谷歌CEO Sundar Pichai和DeepMind CEO Demis Hassabis对新模型进行了专门介绍。他们表示，Gemini 1.5的推出是谷歌在AI领域持续创新的一部分，将为用户和开发人员带来更强大、更有用的功能。随着AI技术的不断发展，我们期待着看到更多创新和突破，为人类带来更多便利和价值。

AD：精心整理了2000+好用的AI工具！点此获取