SenseNova-SI:商汤空间智能大模型
AI 机器人 AI开源项目
SenseNova-SI:商汤空间智能大模型

商汤开源的2B/8B多模态模型,在空间理解基准上超越GPT-5,为自动驾驶、机器人提供“看懂世界”的通用引擎。

开通正版Chatgpt账号联系QQ:515002667
商汤开源的2B/8B多模态模型,在空间理解基准上超越GPT-5,为自动驾驶、机器人提供“看懂世界”的通用引擎。
1 主要功能
  • 六大空间能力:空间测量、重构、关系判断、视角转换、形变检测、推理预测
  • 多模态输入:单图、多图、视频+文本混合提问
  • 开源双版本:SenseNova-SI-2B(边缘端)、SenseNova-SI-8B(服务端)
  • 配套测评:同步开源EASI平台,一键生成标准化空间智能报告
2 技术原理
  • 高质量空间数据集:千万级带3D标注的室内/室外场景,覆盖几何、语义、物理关系
  • 尺度效应训练法:分阶段放大模型与数据规模,先2B再8B,保持零样本泛化
  • 统一时空Transformer:将图像patch与文本token投影到共享3D坐标隐空间,实现跨模态对齐
  • 自监督预任务:随机遮挡深度、法向、物体框,让模型自恢复空间结构,提升鲁棒性
3 应用场景
  • 自动驾驶:实时估算车道宽度、障碍物3D位置,替代昂贵激光雷达
  • 家用/工业机器人:叠衣服、抓透明物体、按“靠窗”指令放置物品
  • AR/VR:手机扫描房间,一键生成可编辑的3D户型并虚拟摆放家具
  • 无人机巡检:对比历史图像,自动检测塔架形变并量化毫米级位移
  • 教育:拍照即可生成几何题的3D示意图,逐步演示空间推理过程
4 使用方法
  1. 安装:pip install sensenova-si
  2. 快速推理: from sensenova_si import SenseNovaSI
    model = SenseNovaSI("8B")
    answer = model.chat(image="room.jpg", text="沙发到电视的直线距离是多少米?")
  3. 微调:提供带3D标注的自定义JSON,运行官方脚本,单卡A100一天完成领域适配
  4. 测评:上传模型权重到EASI平台,10分钟得到六维雷达图与排行榜排名
5 适用人群
  • 自动驾驶、机器人、AR/VR算法团队
  • 高校图形/视觉实验室,需要开源基线做科研
  • 硬件厂商(扫地机、无人机)想低成本增加空间理解
  • 对GPT-4V空间错误率高不满的开发者
6 优缺点 优点
  • 开源可商用,MIT协议,无授权费用
  • 8B版本在公开空间基准平均领先GPT-5约9分,推理速度达25fps@RTX4090
  • 2B可在树莓派5上30fps运行,边缘友好
  • 训练范式通用,可迁移到任何ViT/Llama架构
缺点
  • 目前仅支持中英双语,其他语种空间指令效果下降
  • 对透明、反光物体深度估计仍有10%相对误差
  • 8B需32G显存,笔记本部署需量化,精度略有损失
空间智能、多模态大模型、开源模型、自动驾驶、机器人感知、AR/VR、3D视觉

相关导航