智谱GLM-4.5V开源发布,引领多模态AI新高度

近日,智谱AI正式推出并开源新一代视觉推理模型GLM-4.5V,标志着中国在视觉-语言模型领域再次取得重要突破。该模型总参数量达1060亿,激活参数约120亿,是目前全球效果最佳的开源视觉推理模型。它在41个公开视觉多模态榜单中综合性能达到同级别开源模型的SOTA(State-of-the-Art,当前最佳)水平,并同步在魔搭社区、Hugging Face等平台开源。

一、技术亮点

GLM-4.5V基于智谱新一代旗舰文本基座模型GLM-4.5-Air构建,延续了GLM-4.1V-Thinking的技术路线。其架构由视觉编码器、MLP适配器和语言解码器三部分组成。模型引入三维旋转位置编码(3D-RoPE),显著提升了对多模态信息中三维空间关系的感知和推理能力。此外,它支持64K tokens的多模态长上下文输入,并采用三维卷积来提升视频处理的效率,对高分辨率以及极端宽高比的图像具有更强的处理能力和稳健性。智谱glm 4.5v开源发布,引领多模态ai新高度

二、性能优势

GLM-4.5V在多个权威的视觉语言(VL)大模型评测基准上,超越了目前所有的同级开源模型。它通过高效混合训练,具备覆盖不同种视觉内容的处理能力,实现全场景视觉推理,包括图像推理、视频理解、GUI任务、复杂图表与长文档解析以及Grounding能力。同时,模型新增“思考模式”开关,用户可灵活选择快速响应或深度推理,平衡效率与效果。智谱glm 4.5v开源发布,引领多模态ai新高度

三、应用场景

GLM-4.5V在真实场景下的表现与可用性尤为突出。它能够处理复杂的图文理解任务,适用于图像推理(场景理解、复杂多图分析、位置识别)、视频理解(长视频分镜分析、事件识别)、GUI任务(屏幕读取、图标识别、桌面操作辅助)、复杂图表与长文档解析(研报分析、信息提取)以及Grounding能力(精准定位视觉元素)。这些应用场景广泛覆盖了从日常生活到专业领域的多种需求。智谱glm 4.5v开源发布,引领多模态ai新高度

四、开源与成本优势

GLM-4.5V采用MIT开源协议,支持商业使用,已同步在GitHub、Hugging Face和魔搭社区开源。此外,该模型兼顾推理速度与部署成本,为企业与开发者提供高性价比的多模态AI解决方案。API调用价格低至输入2元/M tokens,输出6元/M tokens,响应速度达到60-80 tokens/s,智谱开放平台BigModel.cn还为所有新老用户准备了2000万Tokens的免费资源包。

AD:精心整理了2000+好用的AI工具!点此获取

相关推荐

1 1

免费AI工具合集,点击进入

AI对话

玉米AI助手