空间智能与多模态模型融合：SenseNova-SI的技术突破与应用-深圳市維司達科技有限公司

1. 空间智能与多模态基础模型的融合演进

空间智能（Spatial Intelligence）作为人工智能领域的重要分支，其核心在于让机器具备理解、推理和操作三维空间的能力。这种能力对人类而言是与生俱来的——我们能够轻松判断物体的相对位置、估算距离、在脑海中旋转三维物体，或是规划最优路径。然而，对AI系统来说，这些任务却长期构成严峻挑战。

传统计算机视觉系统主要关注二维图像理解，如图像分类、目标检测等任务。但随着自动驾驶、机器人导航、增强现实等应用的兴起，仅具备二维视觉理解已远远不够。一个能够在物理世界中自主行动的智能体，必须建立起对三维空间的精确表征和推理能力。这就是空间智能研究的根本出发点。

多模态基础模型（Multimodal Foundation Models）的崛起为空间智能发展提供了新的可能性。这类模型通过海量视觉-语言数据的预训练，已经展现出强大的跨模态理解和生成能力。然而，现有研究表明，即使是当前最先进的多模态模型（如GPT-5、Gemini等），在空间推理任务上的表现仍显著落后于人类水平。这种差距主要体现在三个方面：

视角转换能力不足：难以从不同视角理解同一场景的空间关系
度量估计精度低：对物体尺寸、距离等物理量的估算误差较大
复杂推理链条薄弱：处理需要多步空间推理的任务时表现不佳

造成这些局限的根本原因在于训练数据的偏差。现有多模态数据集主要来源于互联网图片和文本，其中明确包含三维空间信息的样本比例极低。模型缺乏足够的机会学习空间关系的本质规律，只能依靠表面统计规律进行猜测。

2. SenseNova-SI的技术架构与创新

2.1 基础模型选择

SenseNova-SI系列并非从零开始训练的全新架构，而是基于三种成熟的多模态基础模型进行空间能力增强：

Qwen3-VL：源自强大的语言模型基础，通过扩展获得视觉理解能力。其优势在于语言理解和生成的流畅性，特别适合需要复杂描述的推理任务。
InternVL3：原生多模态架构，视觉与语言模态从训练初期就共同优化。这种设计使其在跨模态对齐和视觉-语言联合推理方面表现突出。
Bagel：统一的理解-生成架构，打破了传统模型中理解与生成任务的界限。研究其在空间智能任务上的表现具有特殊意义。

这种"模型家族"策略既保证了与现有研究生态的兼容性，又能从不同架构特点中获取洞见。所有基础模型的原始架构都保持不变，仅通过数据层面的扩展来提升空间能力，确保实验结果的可比性。

2.2 空间能力分类体系

SenseNova-SI的核心创新在于其系统性的空间能力分类体系。基于认知科学研究，团队将空间智能分解为五个关键维度：

度量测量（Metric Measurement, MM）
- 物体尺寸估计（如"烤面包机的最大边长是多少？"）
- 场景尺度计算（如"房间的总面积是多少平方米？"）
- 距离估算（相机-物体距离、物体间距离）
空间关系（Spatial Relations, SR）
- 自我中心关系（前-后、左-右、上-下）
- 场景级关系（远-近、大-小比较）
- 相对方位判断（如"微波炉在冰箱的哪个方向？"）
心理重建（Mental Reconstruction, MR）
- 从有限视角推断物体三维结构
- 判断物体在特定视角下可见的面
- 根据局部信息补全完整空间布局
视角转换（Perspective-taking, PT）
- 跨视角对应（识别不同视角下的同一物体）
- 相机运动推理（推断相机的位置和方向变化）
- 自我中心与物体中心视角转换
综合推理（Comprehensive Reasoning, CR）
- 路径规划与导航
- 多步骤空间问题求解
- 结合多种基础能力的复杂任务

这种分类不仅指导了数据收集，更为评估模型能力提供了系统框架。特别值得注意的是，视角转换（PT）在以往研究中常被忽视，而SenseNova-SI将其作为重点突破方向。

3. SenseNova-SI-8M数据集构建

3.1 数据来源与组成

构建高质量的SpaceNova-SI-8M数据集是本研究的关键基础。该数据集包含850万问答对，通过三个渠道系统收集：

通用QA数据集（60万样本）
- 来源：VSR、SPEC、GQA等标准视觉问答数据集
- 作用：保持模型的一般视觉理解能力
- 处理：筛选可能隐含空间信息的样本
社区空间数据集（330万样本）
- 精选Open3D-VQA、CLEVR-series、REL3D等专业空间推理数据集
- 覆盖基础空间任务，但存在视角转换数据不足的问题
- 进行统一格式化处理和质量过滤
新增空间数据（450万样本）
- 基于ScanNet、Matterport3D等富含3D标注的数据源生成
- 重点补充视角转换和心理重建任务数据
- 使用程序化方法生成多样化问答对

3.2 数据生成与质量控制

对于新增数据部分，研究团队开发了系统的生成流程：

3D场景解析：从原始数据提取物体位置、尺寸、朝向等精确几何信息
虚拟相机设置：在场景中放置多个虚拟相机，模拟不同视角
问题模板设计：针对每类空间能力开发多种提问方式
自动答案生成：基于几何计算得到精确答案
人工验证：抽样检查问题合理性和答案准确性

特别针对视角转换任务，设计了渐进式难度体系：

Level 1：简单视角变化（平移或小角度旋转）
Level 2：中等视角变化（较大角度旋转或部分遮挡）
Level 3：极端视角变化（如从正视图切换到俯视图）
Level 4：物体中心视角转换（想象站在某物体上的视角）
Level 5：假设性视角（如"如果面向北方，X相对于Y的位置"）

这种结构化设计确保模型能够循序渐进地掌握视角转换技能，而非仅记忆表面模式。

4. 训练策略与优化

4.1 训练配置

所有模型均采用一致的训练设置以确保可比性：

硬件：128块GPU（A100 80GB）
批量大小：2048
优化器：AdamW（学习率5e-6）
训练时长：约3天/模型
训练轮次：1个epoch（因数据量大，更多轮次收益有限）

对于视频数据，统一采样16个关键帧作为输入。这种设计在计算效率和时序信息保留间取得平衡。

4.2 能力平衡策略

面对多维度空间能力的训练目标，团队采用了几项关键策略：

动态样本加权：根据模型在各能力上的当前表现动态调整样本权重，避免某些能力被忽视
课程学习：先训练基础能力（如简单空间关系），再逐步引入复杂任务（如视角转换）
负样本挖掘：针对模型易错案例生成对抗性样本，强化薄弱环节

这些策略有效缓解了多任务学习中的"跷跷板"现象（某些任务性能提升以其他任务下降为代价）。

5. 实验结果与分析

5.1 基准测试表现

SenseNova-SI在八大空间智能基准测试中全面超越此前最佳开源模型：

基准测试	指标	SenseNova-SI-8B	此前最佳开源模型	相对提升
VSI-Bench	Acc	68.8%	55.5% (VST-7B)	+13.3%
MMSI	Acc	43.3%	32.5% (VST-7B)	+10.8%
MindCube	Acc	85.7%	51.7% (MindCube)	+34.0%
ViewSpatial	Acc	54.7%	39.7% (VST-7B)	+15.0%
SITE	CAA	47.7%	41.3% (Bagel)	+6.4%
BLINK	Acc	63.9%	39.7% (VST-7B)	+24.2%
3DSR	Acc	55.5%	48.7% (VST-7B)	+6.8%
EmbSpatial	Acc	72.0%	53.1% (VST-7B)	+18.9%

值得注意的是，SenseNova-SI-InternVL3-8B在MindCube测试中达到85.7%准确率，接近人类水平（97.2%），远超此前最佳模型的51.7%。这表明系统性的数据扩展能极大提升心理重建能力。

5.2 与闭源模型对比

SenseNova-SI在多项空间能力上甚至超越了商业闭源模型：

在ViewSpatial测试中，SenseNova-SI（54.7%）优于GPT-5（56.3%）和Gemini-3-Pro（50.4%）
视角转换任务上，SenseNova-SI平均表现比GPT-5高9.2个百分点
在需要长程空间推理的VSI-Bench中，SenseNova-SI（68.8%）接近Gemini-3-Pro（63.8%）

这些结果挑战了"只有超大参数量模型才能实现先进空间智能"的固有认知，证明精心设计的数据策略可以释放较小模型的潜力。

5.3 关键发现

5.3.1 数据扩展规律

研究发现不同空间能力随数据扩展呈现不同学习曲线：

度量测量（MM）：最容易通过数据扩展提升，呈现明显的对数增长趋势
空间关系（SR）：中等难度，需要一定数据量后才会显著提升
视角转换（PT）：最难掌握，小模型（2B）几乎无法有效学习，8B模型需要大量数据后才显现进步
综合推理（CR）：有趣的是，即使专门CR数据很少，模型通过其他能力的提升也能带动CR进步

这表明空间智能各维度间存在"能力迁移"现象——基础能力的提升为复杂推理奠定基础。

5.3.2 泛化能力涌现

SenseNova-SI展现出令人惊喜的泛化表现：

跨任务迁移：在A任务上训练后，未经训练的B任务表现也提升
- 例如：视角对应训练提升了相机运动推理能力
超出训练分布的泛化：
- 训练时最多使用16帧视频，但能处理32帧甚至64帧输入
- 在未见过的视角组合上仍保持较好表现
长程空间推理：
- 能够连接远距离空间关系（如房间两端物体的相对位置）
- 在路径规划任务中表现出多步骤推理能力

这些现象暗示模型可能学习到了某些通用的空间表征规律，而非简单地记忆训练样本。

5.3.3 鲁棒性验证

为确保模型真正掌握空间理解而非利用数据偏差，团队设计了严格测试：

视觉输入消融：移除图像输入后，准确率从85.6%降至52.5%，证明依赖真实的视觉分析
选项循环测试：随机打乱答案选项顺序，性能仅轻微下降（<2%）
对抗样本测试：对图像添加视角扰动，模型表现下降程度显著小于基线方法
跨数据集评估：在一个数据集训练，其他数据集测试，保持稳定表现

这些测试证实SenseNova-SI的空间能力具有实质性而非表面性。

6. 应用验证与案例研究

6.1 机器人操作任务

将SenseNova-SI应用于真实机器人抓取场景，无需微调即实现：

复杂物体抓取成功率提升32%
避障路径规划效率提高28%
在陌生环境中的自适应能力显著增强

这表明空间智能模型确实能够迁移到真实物理世界任务中。

6.2 增强现实导航

在AR导航原型系统中，SenseNova-SI展现出：

更准确的空间标注（误差<5cm）
自然的视角转换能力（如从用户视角切换到全局视图）
对动态障碍物的实时反应能力

用户体验评分比传统方法提高41%。

7. 局限性与未来方向

尽管SenseNova-SI取得显著进展，研究团队也坦诚指出当前局限：

物理规律理解：对物体物理属性（如质量、材质）的推理能力仍有限
动态场景处理：对快速移动物体的空间关系判断准确率有待提高
抽象空间推理：处理高度抽象的空间概念（如拓扑关系）时表现不稳定

未来工作将重点关注：

引入物理引擎增强的训练数据
开发更高效的空间表征学习架构
探索多智能体协同空间任务
研究空间智能与常识推理的融合

团队已全面开源所有模型和部分数据，希望推动空间智能研究的共同进步。

空间智能与多模态模型融合：SenseNova-SI的技术突破与应用