阿里巴巴推出Qwen2-VL：多模态AI新标杆，性能超越GPT-4o

在人工智能领域，阿里巴巴集团再次引领潮流，重磅开源了其最新的视觉多模态模型——Qwen2-VL。这一模型在性能测试中表现出色，多项指标超越了OpenAI的GPT-4o和Anthropic的Claude3.5-Sonnet等业界知名闭源模型，成为目前最强大、功能最全面的多模态AI模型之一。

Qwen2-VL不仅支持中文、英文、日文、韩文等多语言，还允许在Apache2.0协议下进行商业化应用，极大地拓宽了其应用场景。阿里巴巴还提供了Qwen2-VL-72B的API，助力开发者轻松构建或增强多模态AI应用。

1、特色功能与性能测试
Qwen2-VL基于前代Qwen2模型开发，具备以下显著特色功能：

长视频理解能力：能够理解长达20分钟的视频内容，支持基于视频的问答、对话和内容创作等应用。
视觉智能体操作：集成到手机、机器人等设备，根据视觉环境和文字指令进行自动操作。
多分辨率图片理解：在多个视觉理解基准测试中取得全球领先的表现。
性能评估显示，Qwen2-VL的72B模型在大部分性能指标上超越了GPT-4o，尤其在视频理解和多语言文字图像理解方面表现出色。即使是7B模型，其性能也与GPT-4mini持平，处于行业领先水平。

2、架构创新
Qwen2-VL在架构上实现了对原生动态分辨率的全面支持，能够处理任意分辨率的图像输入，最小只占4个tokens。此外，多模态旋转位置嵌入（M-ROPE）技术的应用，使得模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息，显著提升了多模态处理和推理能力。

3、实际应用案例
阿里巴巴已经展示了Qwen2-VL在多个实际应用场景中的卓越表现，包括对视频的详细解读和基于视频内容的实时问答功能。用户可以基于视频内容提出问题，Qwen2-VL能够提供详细准确的回答。
随着Qwen2-VL的开源，我们期待这一模型将在多模态AI领域引发一场新的技术革命，推动人工智能技术在更广泛领域的应用和发展。

开源地址:https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d
Github:https://github.com/QwenLM/Qwen2-VL
在线demo:https://huggingface.co/spaces/Qwen/Qwen2-VL
API:https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api

AD：精心整理了2000+好用的AI工具！点此获取

阿里巴巴推出Qwen2-VL：多模态AI新标杆，性能超越GPT-4o

OpenAI又有新突破：Orion猎户座模型呼之欲出，草莓训练法引领AI新纪元

谷歌GameNGen：AI驱动的游戏引擎来了游戏产业的AI革新

玉米AI助手

阿里巴巴推出Qwen2-VL：多模态AI新标杆，性能超越GPT-4o

OpenAI又有新突破：Orion猎户座模型呼之欲出，草莓训练法引领AI新纪元

谷歌GameNGen：AI驱动的游戏引擎来了 游戏产业的AI革新

相关推荐

玉米AI助手

搜索

阿里巴巴推出Qwen2-VL：多模态AI新标杆，性能超越GPT-4o

阿里巴巴推出Qwen2-VL：多模态AI新标杆，性能超越GPT-4o

谷歌GameNGen：AI驱动的游戏引擎来了游戏产业的AI革新