阿里巴巴推出Qwen2-VL:多模态AI新标杆,性能超越GPT-4o

在人工智能领域,阿里巴巴集团再次引领潮流,重磅开源了其最新的视觉多模态模型——Qwen2-VL。这一模型在性能测试中表现出色,多项指标超越了OpenAI的GPT-4o和Anthropic的Claude3.5-Sonnet等业界知名闭源模型,成为目前最强大、功能最全面的多模态AI模型之一。

Qwen2-VL不仅支持中文、英文、日文、韩文等多语言,还允许在Apache2.0协议下进行商业化应用,极大地拓宽了其应用场景。阿里巴巴还提供了Qwen2-VL-72B的API,助力开发者轻松构建或增强多模态AI应用。
阿里巴巴推出qwen2 Vl:多模态ai新标杆,性能超越gpt 4o
1、特色功能与性能测试
Qwen2-VL基于前代Qwen2模型开发,具备以下显著特色功能:

长视频理解能力: 能够理解长达20分钟的视频内容,支持基于视频的问答、对话和内容创作等应用。
视觉智能体操作: 集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作。
多分辨率图片理解: 在多个视觉理解基准测试中取得全球领先的表现。
性能评估显示,Qwen2-VL的72B模型在大部分性能指标上超越了GPT-4o,尤其在视频理解和多语言文字图像理解方面表现出色。即使是7B模型,其性能也与GPT-4mini持平,处于行业领先水平。

2、架构创新
Qwen2-VL在架构上实现了对原生动态分辨率的全面支持,能够处理任意分辨率的图像输入,最小只占4个tokens。此外,多模态旋转位置嵌入(M-ROPE)技术的应用,使得模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息,显著提升了多模态处理和推理能力。
阿里巴巴推出qwen2 Vl:多模态ai新标杆,性能超越gpt 4o
3、实际应用案例
阿里巴巴已经展示了Qwen2-VL在多个实际应用场景中的卓越表现,包括对视频的详细解读和基于视频内容的实时问答功能。用户可以基于视频内容提出问题,Qwen2-VL能够提供详细准确的回答。
随着Qwen2-VL的开源,我们期待这一模型将在多模态AI领域引发一场新的技术革命,推动人工智能技术在更广泛领域的应用和发展。

开源地址:https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d
Github:https://github.com/QwenLM/Qwen2-VL
在线demo:https://huggingface.co/spaces/Qwen/Qwen2-VL
API:https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api

AD:精心整理了1000+好用的AI工具!点此获取

相关推荐