智谱GLM-4.5V开源发布，引领多模态AI新高度

近日，智谱AI正式推出并开源新一代视觉推理模型GLM-4.5V，标志着中国在视觉-语言模型领域再次取得重要突破。该模型总参数量达1060亿，激活参数约120亿，是目前全球效果最佳的开源视觉推理模型。它在41个公开视觉多模态榜单中综合性能达到同级别开源模型的SOTA（State-of-the-Art，当前最佳）水平，并同步在魔搭社区、Hugging Face等平台开源。

一、技术亮点

GLM-4.5V基于智谱新一代旗舰文本基座模型GLM-4.5-Air构建，延续了GLM-4.1V-Thinking的技术路线。其架构由视觉编码器、MLP适配器和语言解码器三部分组成。模型引入三维旋转位置编码（3D-RoPE），显著提升了对多模态信息中三维空间关系的感知和推理能力。此外，它支持64K tokens的多模态长上下文输入，并采用三维卷积来提升视频处理的效率，对高分辨率以及极端宽高比的图像具有更强的处理能力和稳健性。

二、性能优势

GLM-4.5V在多个权威的视觉语言（VL）大模型评测基准上，超越了目前所有的同级开源模型。它通过高效混合训练，具备覆盖不同种视觉内容的处理能力，实现全场景视觉推理，包括图像推理、视频理解、GUI任务、复杂图表与长文档解析以及Grounding能力。同时，模型新增“思考模式”开关，用户可灵活选择快速响应或深度推理，平衡效率与效果。

三、应用场景

GLM-4.5V在真实场景下的表现与可用性尤为突出。它能够处理复杂的图文理解任务，适用于图像推理（场景理解、复杂多图分析、位置识别）、视频理解（长视频分镜分析、事件识别）、GUI任务（屏幕读取、图标识别、桌面操作辅助）、复杂图表与长文档解析（研报分析、信息提取）以及Grounding能力（精准定位视觉元素）。这些应用场景广泛覆盖了从日常生活到专业领域的多种需求。

四、开源与成本优势

GLM-4.5V采用MIT开源协议，支持商业使用，已同步在GitHub、Hugging Face和魔搭社区开源。此外，该模型兼顾推理速度与部署成本，为企业与开发者提供高性价比的多模态AI解决方案。API调用价格低至输入2元/M tokens，输出6元/M tokens，响应速度达到60-80 tokens/s，智谱开放平台BigModel.cn还为所有新老用户准备了2000万Tokens的免费资源包。

AD：精心整理了2000+好用的AI工具！点此获取

智谱GLM-4.5V开源发布，引领多模态AI新高度

一、技术亮点

二、性能优势

三、应用场景

四、开源与成本优势

华为发布AI推理技术UCM，推动行业革新

国内外好用的 AI 陪伴工具推荐：星野、X Eva、Candy等，附使用地址

玉米AI助手

智谱GLM-4.5V开源发布，引领多模态AI新高度

一、技术亮点

二、性能优势

三、应用场景

四、开源与成本优势

华为发布AI推理技术UCM，推动行业革新

国内外好用的 AI 陪伴工具推荐：星野、X Eva、Candy等，附使用地址

相关推荐

玉米AI助手

搜索

智谱GLM-4.5V开源发布，引领多模态AI新高度

智谱GLM-4.5V开源发布，引领多模态AI新高度