SenseNova-SI：商汤空间智能大模型

AI 机器人 AI开源项目

商汤开源的2B/8B多模态模型，在空间理解基准上超越GPT-5，为自动驾驶、机器人提供“看懂世界”的通用引擎。

链接直达手机查看

商汤开源的2B/8B多模态模型，在空间理解基准上超越GPT-5，为自动驾驶、机器人提供“看懂世界”的通用引擎。

1 主要功能

六大空间能力：空间测量、重构、关系判断、视角转换、形变检测、推理预测
多模态输入：单图、多图、视频+文本混合提问
开源双版本：SenseNova-SI-2B（边缘端）、SenseNova-SI-8B（服务端）
配套测评：同步开源EASI平台，一键生成标准化空间智能报告

2 技术原理

高质量空间数据集：千万级带3D标注的室内/室外场景，覆盖几何、语义、物理关系
尺度效应训练法：分阶段放大模型与数据规模，先2B再8B，保持零样本泛化
统一时空Transformer：将图像patch与文本token投影到共享3D坐标隐空间，实现跨模态对齐
自监督预任务：随机遮挡深度、法向、物体框，让模型自恢复空间结构，提升鲁棒性

3 应用场景

自动驾驶：实时估算车道宽度、障碍物3D位置，替代昂贵激光雷达
家用/工业机器人：叠衣服、抓透明物体、按“靠窗”指令放置物品
AR/VR：手机扫描房间，一键生成可编辑的3D户型并虚拟摆放家具
无人机巡检：对比历史图像，自动检测塔架形变并量化毫米级位移
教育：拍照即可生成几何题的3D示意图，逐步演示空间推理过程

4 使用方法

安装：pip install sensenova-si
快速推理： from sensenova_si import SenseNovaSI
model = SenseNovaSI("8B")
answer = model.chat(image="room.jpg", text="沙发到电视的直线距离是多少米？")
微调：提供带3D标注的自定义JSON，运行官方脚本，单卡A100一天完成领域适配
测评：上传模型权重到EASI平台，10分钟得到六维雷达图与排行榜排名

5 适用人群

自动驾驶、机器人、AR/VR算法团队
高校图形/视觉实验室，需要开源基线做科研
硬件厂商（扫地机、无人机）想低成本增加空间理解
对GPT-4V空间错误率高不满的开发者

6 优缺点 优点

开源可商用，MIT协议，无授权费用
8B版本在公开空间基准平均领先GPT-5约9分，推理速度达25fps@RTX4090
2B可在树莓派5上30fps运行，边缘友好
训练范式通用，可迁移到任何ViT/Llama架构

缺点

目前仅支持中英双语，其他语种空间指令效果下降
对透明、反光物体深度估计仍有10%相对误差
8B需32G显存，笔记本部署需量化，精度略有损失

空间智能、多模态大模型、开源模型、自动驾驶、机器人感知、AR/VR、3D视觉

相关导航

Toy Box Flux：基于AI的3D渲染图像生成工具

Toy Box Flux 是一个利用AI生成图像训练的3D渲染模型，结合了3D LoRA模型和Coloring Book Flux LoRA的权重，形成了独特的风格，特别适合生成具有特定风格的玩具设计图像。

字节跳动 Phantom：主体一致视频生成框架

视频生成框架，通过跨模态对齐技术结合文本和图像提示，从参考图像中提取主体元素并生成与文本描述一致的视频内容。

Stable Video 4D（SV4D）

Stable Video 4D（SV4D）是由AI公司Stability AI推出的首个视频生视频模型。该模型能够将单个物体的单视角视频输入，转换成8个不同视角的多视角视频，为用户提供全视图3D动态视频体验。

免责声明：本站为个人资讯、工具类学习博客，所发布的一切形式的内容，包括但不限于文字、链接、工具、图片、视频、软件等，仅限用于学习和研究目的，不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，如有侵权请联系本站删除下架，您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。访问和下载本站内容，说明您已同意上述条款。本站为非盈利性站点，本站不贩卖软件，所有内容不作为商业行为，点击、使用相关工具时请注意甄别，谨防上当受骗。咨询联系：yumiok88@gmail.com.