1. 空间智能与多模态基础模型的融合演进
空间智能(Spatial Intelligence)作为人工智能领域的重要分支,其核心在于让机器具备理解、推理和操作三维空间的能力。这种能力对人类而言是与生俱来的——我们能够轻松判断物体的相对位置、估算距离、在脑海中旋转三维物体,或是规划最优路径。然而,对AI系统来说,这些任务却长期构成严峻挑战。
传统计算机视觉系统主要关注二维图像理解,如图像分类、目标检测等任务。但随着自动驾驶、机器人导航、增强现实等应用的兴起,仅具备二维视觉理解已远远不够。一个能够在物理世界中自主行动的智能体,必须建立起对三维空间的精确表征和推理能力。这就是空间智能研究的根本出发点。
多模态基础模型(Multimodal Foundation Models)的崛起为空间智能发展提供了新的可能性。这类模型通过海量视觉-语言数据的预训练,已经展现出强大的跨模态理解和生成能力。然而,现有研究表明,即使是当前最先进的多模态模型(如GPT-5、Gemini等),在空间推理任务上的表现仍显著落后于人类水平。这种差距主要体现在三个方面:
- 视角转换能力不足:难以从不同视角理解同一场景的空间关系
- 度量估计精度低:对物体尺寸、距离等物理量的估算误差较大
- 复杂推理链条薄弱:处理需要多步空间推理的任务时表现不佳
造成这些局限的根本原因在于训练数据的偏差。现有多模态数据集主要来源于互联网图片和文本,其中明确包含三维空间信息的样本比例极低。模型缺乏足够的机会学习空间关系的本质规律,只能依靠表面统计规律进行猜测。
2. SenseNova-SI的技术架构与创新
2.1 基础模型选择
SenseNova-SI系列并非从零开始训练的全新架构,而是基于三种成熟的多模态基础模型进行空间能力增强:
Qwen3-VL:源自强大的语言模型基础,通过扩展获得视觉理解能力。其优势在于语言理解和生成的流畅性,特别适合需要复杂描述的推理任务。
InternVL3:原生多模态架构,视觉与语言模态从训练初期就共同优化。这种设计使其在跨模态对齐和视觉-语言联合推理方面表现突出。
Bagel:统一的理解-生成架构,打破了传统模型中理解与生成任务的界限。研究其在空间智能任务上的表现具有特殊意义。
这种"模型家族"策略既保证了与现有研究生态的兼容性,又能从不同架构特点中获取洞见。所有基础模型的原始架构都保持不变,仅通过数据层面的扩展来提升空间能力,确保实验结果的可比性。
2.2 空间能力分类体系
SenseNova-SI的核心创新在于其系统性的空间能力分类体系。基于认知科学研究,团队将空间智能分解为五个关键维度:
度量测量(Metric Measurement, MM)
- 物体尺寸估计(如"烤面包机的最大边长是多少?")
- 场景尺度计算(如"房间的总面积是多少平方米?")
- 距离估算(相机-物体距离、物体间距离)
空间关系(Spatial Relations, SR)
- 自我中心关系(前-后、左-右、上-下)
- 场景级关系(远-近、大-小比较)
- 相对方位判断(如"微波炉在冰箱的哪个方向?")
心理重建(Mental Reconstruction, MR)
- 从有限视角推断物体三维结构
- 判断物体在特定视角下可见的面
- 根据局部信息补全完整空间布局
视角转换(Perspective-taking, PT)
- 跨视角对应(识别不同视角下的同一物体)
- 相机运动推理(推断相机的位置和方向变化)
- 自我中心与物体中心视角转换
综合推理(Comprehensive Reasoning, CR)
- 路径规划与导航
- 多步骤空间问题求解
- 结合多种基础能力的复杂任务
这种分类不仅指导了数据收集,更为评估模型能力提供了系统框架。特别值得注意的是,视角转换(PT)在以往研究中常被忽视,而SenseNova-SI将其作为重点突破方向。
3. SenseNova-SI-8M数据集构建
3.1 数据来源与组成
构建高质量的SpaceNova-SI-8M数据集是本研究的关键基础。该数据集包含850万问答对,通过三个渠道系统收集:
通用QA数据集(60万样本)
- 来源:VSR、SPEC、GQA等标准视觉问答数据集
- 作用:保持模型的一般视觉理解能力
- 处理:筛选可能隐含空间信息的样本
社区空间数据集(330万样本)
- 精选Open3D-VQA、CLEVR-series、REL3D等专业空间推理数据集
- 覆盖基础空间任务,但存在视角转换数据不足的问题
- 进行统一格式化处理和质量过滤
新增空间数据(450万样本)
- 基于ScanNet、Matterport3D等富含3D标注的数据源生成
- 重点补充视角转换和心理重建任务数据
- 使用程序化方法生成多样化问答对
3.2 数据生成与质量控制
对于新增数据部分,研究团队开发了系统的生成流程:
- 3D场景解析:从原始数据提取物体位置、尺寸、朝向等精确几何信息
- 虚拟相机设置:在场景中放置多个虚拟相机,模拟不同视角
- 问题模板设计:针对每类空间能力开发多种提问方式
- 自动答案生成:基于几何计算得到精确答案
- 人工验证:抽样检查问题合理性和答案准确性
特别针对视角转换任务,设计了渐进式难度体系:
- Level 1:简单视角变化(平移或小角度旋转)
- Level 2:中等视角变化(较大角度旋转或部分遮挡)
- Level 3:极端视角变化(如从正视图切换到俯视图)
- Level 4:物体中心视角转换(想象站在某物体上的视角)
- Level 5:假设性视角(如"如果面向北方,X相对于Y的位置")
这种结构化设计确保模型能够循序渐进地掌握视角转换技能,而非仅记忆表面模式。
4. 训练策略与优化
4.1 训练配置
所有模型均采用一致的训练设置以确保可比性:
- 硬件:128块GPU(A100 80GB)
- 批量大小:2048
- 优化器:AdamW(学习率5e-6)
- 训练时长:约3天/模型
- 训练轮次:1个epoch(因数据量大,更多轮次收益有限)
对于视频数据,统一采样16个关键帧作为输入。这种设计在计算效率和时序信息保留间取得平衡。
4.2 能力平衡策略
面对多维度空间能力的训练目标,团队采用了几项关键策略:
- 动态样本加权:根据模型在各能力上的当前表现动态调整样本权重,避免某些能力被忽视
- 课程学习:先训练基础能力(如简单空间关系),再逐步引入复杂任务(如视角转换)
- 负样本挖掘:针对模型易错案例生成对抗性样本,强化薄弱环节
这些策略有效缓解了多任务学习中的"跷跷板"现象(某些任务性能提升以其他任务下降为代价)。
5. 实验结果与分析
5.1 基准测试表现
SenseNova-SI在八大空间智能基准测试中全面超越此前最佳开源模型:
| 基准测试 | 指标 | SenseNova-SI-8B | 此前最佳开源模型 | 相对提升 |
|---|---|---|---|---|
| VSI-Bench | Acc | 68.8% | 55.5% (VST-7B) | +13.3% |
| MMSI | Acc | 43.3% | 32.5% (VST-7B) | +10.8% |
| MindCube | Acc | 85.7% | 51.7% (MindCube) | +34.0% |
| ViewSpatial | Acc | 54.7% | 39.7% (VST-7B) | +15.0% |
| SITE | CAA | 47.7% | 41.3% (Bagel) | +6.4% |
| BLINK | Acc | 63.9% | 39.7% (VST-7B) | +24.2% |
| 3DSR | Acc | 55.5% | 48.7% (VST-7B) | +6.8% |
| EmbSpatial | Acc | 72.0% | 53.1% (VST-7B) | +18.9% |
值得注意的是,SenseNova-SI-InternVL3-8B在MindCube测试中达到85.7%准确率,接近人类水平(97.2%),远超此前最佳模型的51.7%。这表明系统性的数据扩展能极大提升心理重建能力。
5.2 与闭源模型对比
SenseNova-SI在多项空间能力上甚至超越了商业闭源模型:
- 在ViewSpatial测试中,SenseNova-SI(54.7%)优于GPT-5(56.3%)和Gemini-3-Pro(50.4%)
- 视角转换任务上,SenseNova-SI平均表现比GPT-5高9.2个百分点
- 在需要长程空间推理的VSI-Bench中,SenseNova-SI(68.8%)接近Gemini-3-Pro(63.8%)
这些结果挑战了"只有超大参数量模型才能实现先进空间智能"的固有认知,证明精心设计的数据策略可以释放较小模型的潜力。
5.3 关键发现
5.3.1 数据扩展规律
研究发现不同空间能力随数据扩展呈现不同学习曲线:
- 度量测量(MM):最容易通过数据扩展提升,呈现明显的对数增长趋势
- 空间关系(SR):中等难度,需要一定数据量后才会显著提升
- 视角转换(PT):最难掌握,小模型(2B)几乎无法有效学习,8B模型需要大量数据后才显现进步
- 综合推理(CR):有趣的是,即使专门CR数据很少,模型通过其他能力的提升也能带动CR进步
这表明空间智能各维度间存在"能力迁移"现象——基础能力的提升为复杂推理奠定基础。
5.3.2 泛化能力涌现
SenseNova-SI展现出令人惊喜的泛化表现:
- 跨任务迁移:在A任务上训练后,未经训练的B任务表现也提升
- 例如:视角对应训练提升了相机运动推理能力
- 超出训练分布的泛化:
- 训练时最多使用16帧视频,但能处理32帧甚至64帧输入
- 在未见过的视角组合上仍保持较好表现
- 长程空间推理:
- 能够连接远距离空间关系(如房间两端物体的相对位置)
- 在路径规划任务中表现出多步骤推理能力
这些现象暗示模型可能学习到了某些通用的空间表征规律,而非简单地记忆训练样本。
5.3.3 鲁棒性验证
为确保模型真正掌握空间理解而非利用数据偏差,团队设计了严格测试:
- 视觉输入消融:移除图像输入后,准确率从85.6%降至52.5%,证明依赖真实的视觉分析
- 选项循环测试:随机打乱答案选项顺序,性能仅轻微下降(<2%)
- 对抗样本测试:对图像添加视角扰动,模型表现下降程度显著小于基线方法
- 跨数据集评估:在一个数据集训练,其他数据集测试,保持稳定表现
这些测试证实SenseNova-SI的空间能力具有实质性而非表面性。
6. 应用验证与案例研究
6.1 机器人操作任务
将SenseNova-SI应用于真实机器人抓取场景,无需微调即实现:
- 复杂物体抓取成功率提升32%
- 避障路径规划效率提高28%
- 在陌生环境中的自适应能力显著增强
这表明空间智能模型确实能够迁移到真实物理世界任务中。
6.2 增强现实导航
在AR导航原型系统中,SenseNova-SI展现出:
- 更准确的空间标注(误差<5cm)
- 自然的视角转换能力(如从用户视角切换到全局视图)
- 对动态障碍物的实时反应能力
用户体验评分比传统方法提高41%。
7. 局限性与未来方向
尽管SenseNova-SI取得显著进展,研究团队也坦诚指出当前局限:
- 物理规律理解:对物体物理属性(如质量、材质)的推理能力仍有限
- 动态场景处理:对快速移动物体的空间关系判断准确率有待提高
- 抽象空间推理:处理高度抽象的空间概念(如拓扑关系)时表现不稳定
未来工作将重点关注:
- 引入物理引擎增强的训练数据
- 开发更高效的空间表征学习架构
- 探索多智能体协同空间任务
- 研究空间智能与常识推理的融合
团队已全面开源所有模型和部分数据,希望推动空间智能研究的共同进步。