
书生·万象 InternVL3.5 是上海 AI 实验室开源的多模态大模型,通过创新的级联式强化学习、动态视觉分辨率路由与解耦部署架构,实现推理能力、部署效率与通用能力的全面升级。
1. 主要功能
多模态感知与理解:在图像、视频问答等多模态感知任务中表现出色,241B-A28B 模型以 74.1 的平均得分超越现有开源模型,并与商业模型 GPT-5(74.0)接近。
多模态推理:在多模态推理方面,241B-A28B 模型在 MMMU 基准获得 77.7 分,较前代提升超 5 个百分点,位列开源榜首,数学与逻辑推理也达到高水平。
文本能力:在 AIME、GPQA 及 IFEval 等多个基准中,模型可以取得 85.3 的均分,处于开源领先。
智能体能力:加强了 GUI 智能体、具身智能体等核心能力,覆盖 GUI 交互、具身空间推理和矢量图形处理等多个关键场景。
2. 技术原理
级联式强化学习(Cascade RL)框架:通过“离线预热 - 在线精调”两阶段流程,实现粗到精的渐进式推理能力提升。
动态视觉分辨率路由(ViR):为每个图像切片动态选择压缩率,减少视觉 tokens,提升推理速度。
解耦部署框架(DvD):将视觉编码器与语言模型分置于不同 GPU,结合 BF16 精度特征传输与异步流水线设计,使视觉计算与语言生成能够并行执行。
3. 应用场景
科研领域:可用于化学、材料、地球科学、生物学等领域的复杂数据解析。
教育领域:高校师生可用于教学演示、论文实验,降低科研入门成本。
企业研发:药企、新材料企业等可加速药物靶点发现、材料性能预测等研发流程。
智能交互:GUI 智能体可实现跨平台的界面元素识别与自动化操作。
4. 使用方法
在线体验:访问 https://chat.intern-ai.org.cn/,无需注册,直接上传数据体验。
模型下载与开发:通过 GitHub 和 Hugging Face 获取模型代码及权重,进行二次开发。
API 调用:使用 Python 调用模型进行数据处理和任务执行。
5. 适用人群
科研人员:处理跨模态数据,提升科研效率。
AI 开发者:基于开源代码进行二次开发,定制专业工具。
高校师生:用于教学和科研入门。
企业研发人员:加速产品研发流程。
6. 优缺点介绍
优点:
性能卓越:在多模态感知、推理、文本能力等方面均达到领先水平。
推理效率高:通过技术优化,大幅提升了推理速度。
功能全面:具备 GUI 智能体、具身智能体等多种能力,适用场景广泛。
开源免费:降低了使用门槛,方便开发者进行二次开发。
缺点:
资源消耗大:尽管推理效率有所提升,但大模型的训练和部署仍需要较高的计算资源。
技术复杂度高:对于非专业人士,理解和使用该模型可能存在一定难度。
分类标签:人工智能、多模态大模型、科研工具、教育工具、企业研发
香港大学与百度联合发布了首个智慧城市大模型 UrbanGPT,该模型在时空预测技术领域引发了重大突破。