
商汤开源的2B/8B多模态模型,在空间理解基准上超越GPT-5,为自动驾驶、机器人提供“看懂世界”的通用引擎。
1 主要功能
-
六大空间能力:空间测量、重构、关系判断、视角转换、形变检测、推理预测
-
多模态输入:单图、多图、视频+文本混合提问
-
开源双版本:SenseNova-SI-2B(边缘端)、SenseNova-SI-8B(服务端)
-
配套测评:同步开源EASI平台,一键生成标准化空间智能报告
2 技术原理
-
高质量空间数据集:千万级带3D标注的室内/室外场景,覆盖几何、语义、物理关系
-
尺度效应训练法:分阶段放大模型与数据规模,先2B再8B,保持零样本泛化
-
统一时空Transformer:将图像patch与文本token投影到共享3D坐标隐空间,实现跨模态对齐
-
自监督预任务:随机遮挡深度、法向、物体框,让模型自恢复空间结构,提升鲁棒性
3 应用场景
-
自动驾驶:实时估算车道宽度、障碍物3D位置,替代昂贵激光雷达
-
家用/工业机器人:叠衣服、抓透明物体、按“靠窗”指令放置物品
-
AR/VR:手机扫描房间,一键生成可编辑的3D户型并虚拟摆放家具
-
无人机巡检:对比历史图像,自动检测塔架形变并量化毫米级位移
-
教育:拍照即可生成几何题的3D示意图,逐步演示空间推理过程
4 使用方法
-
安装:pip install sensenova-si
-
快速推理: from sensenova_si import SenseNovaSI
model = SenseNovaSI("8B")
answer = model.chat(image="room.jpg", text="沙发到电视的直线距离是多少米?") -
微调:提供带3D标注的自定义JSON,运行官方脚本,单卡A100一天完成领域适配
-
测评:上传模型权重到EASI平台,10分钟得到六维雷达图与排行榜排名
5 适用人群
-
自动驾驶、机器人、AR/VR算法团队
-
高校图形/视觉实验室,需要开源基线做科研
-
硬件厂商(扫地机、无人机)想低成本增加空间理解
-
对GPT-4V空间错误率高不满的开发者
6 优缺点 优点
-
开源可商用,MIT协议,无授权费用
-
8B版本在公开空间基准平均领先GPT-5约9分,推理速度达25fps@RTX4090
-
2B可在树莓派5上30fps运行,边缘友好
-
训练范式通用,可迁移到任何ViT/Llama架构
缺点
-
目前仅支持中英双语,其他语种空间指令效果下降
-
对透明、反光物体深度估计仍有10%相对误差
-
8B需32G显存,笔记本部署需量化,精度略有损失
空间智能、多模态大模型、开源模型、自动驾驶、机器人感知、AR/VR、3D视觉
“No Language Left Behind”(NLLB),旨在提供能够直接在200多种语言对之间进行高质量翻译的AI模型,包括资源较少的语言如阿斯图里亚斯语、卢干达语、乌尔都语等。