比SOTA快9倍，谷歌DeepMind时空重建，把视频变成时空搜索引擎-深圳市維司達科技有限公司

谷歌DeepMind联合伦敦大学和牛津大学发布了一个叫D4RT的时空重建框架，彻底颠覆了我们把视频变成3D世界的传统路子。

它不再像过去那样笨重地试图一次性把整个世界算出来，而是像一个随叫随到的时空向导，你问它哪里，它就告诉你哪里。

D4RT给视频装上了时光机，像查字典一样重建3D，让动态场景理解变得轻而易举。

把视频变成时空搜索引擎

想象一下，你正在看一部动作电影，画面里主角在奔跑，背景里的车在开，树叶在飘。

对于人类来说，理解这个场景是三维的、动态的非常自然，但对于计算机来说，这一直是个噩梦般的难题。

以前的AI要想把这段视频变成3D模型，通常采用的是笨办法。

它们试图做一个全知全能的画师，每一帧画面、每一个像素、每一秒钟，都要把它的3D位置、深度、形状全部算出来，不管你需不需要。

这就好比你要查一个单词，旧式的AI会把整本字典从头到尾抄写一遍给你看。

这种做法在面对静止的物体时还勉强凑合，一旦遇到跑动的动物、飞驰的汽车，计算量就会爆炸，而且经常出错，要么画面撕裂，要么东西凭空消失。

谷歌DeepMind联合团队带来的D4RT，不再试图一次性抄写整本字典，而是把自己变成了一个极速的搜索引擎。

D4RT的核心逻辑极其简单：按需提问。

它先看一遍视频，把整个场景的规律记在脑子里，然后你就只管问它。

你想知道那是只天鹅在第10秒飞到哪了？它告诉你。

你想知道摄影师当时是蹲着还是站着？它也告诉你。

你想把整个场景的3D地图画出来？它还是能告诉你。

这种指哪打哪的策略，直接绕开了那些繁重且无用的计算，让处理动态视频变得轻盈又高效。

看上面这张图，D4RT就像一个万能插座，所有的3D任务，不管是点云、轨迹追踪还是相机参数，都能通过同一个接口搞定。

这种设计让它跑得飞快，训练起来也特别省事。

以前那些像拼积木一样凑出来的模型，比如MegaSaM，要把好几个不同的模型强行拼在一起，还得费劲地让它们别打架。

而D4RT是一个整体，从头到尾一气呵成。

转个弯，从全量计算变成按需查询，处理复杂的动态世界其实可以很简单。

一个大脑，无数个分身

D4RT的内部结构美得像一个精巧的沙漏。

它的工作流程分为两步，简单来说就是先读书，后答题。

第一步是读书，也就是编码阶段。

视频被送进一个强大的编码器，这个编码器就像是一个过目不忘的大脑，它会把视频里物体怎么动、时间怎么流逝、哪里是前哪里是后等所有的信息，全部压缩成一个叫做全局场景表示的东西。

你可以把这个全局场景表示想象成一本已经被读懂并浓缩了的天书。

一旦这本天书写好了，第一阶段就结束了，接下来的所有操作都不需要再重新看视频，只需要查阅这本天书。

第二阶段是答题，也就是解码阶段。

这里有一个特别轻量级的解码器，它的工作就是回答你的问题。

这个提问的过程非常有趣，就像是在用一个时空坐标系玩填空题。

你给解码器一个坐标，告诉它：我要找第1帧里坐标是(u, v)的那个点，请告诉我它在第10帧的时候，如果我站在第5帧的相机位置看它，它在三维空间里的哪里？

这听起来有点绕，但正是这种灵活度让D4RT变得无比强大。

它实现了时间和空间的完全解绑。

你不需要非得站在现在的时刻看现在的东西，你可以站在过去看未来，也可以站在未来看过去。

每一个问题都是独立回答的，互不干扰。

如果你只关心画面里的一只小鸟，你就只问关于小鸟的问题，计算量极小。

如果你想重建整个森林，那你就问几百万个问题，虽然问题多了，但因为每个问题之间没有复杂的纠缠，计算机可以并行处理，速度依然飞快。

如表1所示，D4RT就像一把瑞士军刀，虽然只有一个刀柄（统一接口），但能变出各种工具。

你想看轨迹？就固定住一个点，问它每一帧在哪里。

你想看深度图？就问它这一帧里所有像素距离摄像头多远。

甚至连相机的参数（比如焦距、拍摄角度）它也能反推出来。

推导相机参数的过程就像是在做几何拼图。

它先问出同一个点在不同时间的位置，然后用一种叫Umeyama的算法（你可以理解为一种找最佳匹配的数学工具），算出这两个时刻之间相机是怎么移动的。

这背后的技术细节里有一个很有意思的点：它不仅看位置，还看长相。

在提问的时候，D4RT会给坐标，还会切一块这个点周围的小图片（RGB Patch）给解码器看。

这就好比警察找人，光给一个地址不够，如果再给一张照片，找到的概率就大多了。

实验发现，加上这块小图片，准确率直接飙升。

D4RT的速度达到了每秒200帧以上，比第二名快了9倍，比那个拼凑出来的MegaSaM快了整整100倍。

聪明的收割机策略

D4RT最厉害的一点，是它能追踪视频里每一个像素，不管它是静止的背景还是乱动的物体。

想要做到这一点，如果笨笨地对每个像素都从头追到尾，计算量还是会很大。

于是，D4RT发明了一套聪明收割机算法（Algorithm 1）。

这套算法的逻辑是这样的：

想象你在一片麦田里（视频像素网格），你要把麦子都收割了（追踪所有点）。

笨办法是派无数个收割机，不管那块地有没有收过，都开一遍。

D4RT的办法是：先派一批收割机出发。

每台收割机走过的路径，它都会在地图上标记为已收割。

下一波收割机出发前，先看看地图，凡是已经标记了已收割的地方，就不再派人去了，只去那些还没人碰过的空白区域。

这样一轮一轮下来，它能以最快的速度覆盖所有的像素，绝不做无用功。

实验表明，这种策略能根据视频的复杂程度，把速度再提升5到15倍。

这就是为什么D4RT能做到既全覆盖，又快得惊人。

其他的模型要么把天鹅画出了重影（MegaSaM），要么把花朵直接弄丢了。

哪怕是专门做追踪的SpatialTrackerV2，也因为只能追踪第一帧看得见的点，导致天鹅游走后，原本被天鹅挡住的水面它就不知道该咋办了，留下一个个黑洞。

只有D4RT，像个完美的修复师，不管是遮挡还是运动，它都能把整个4D时空填补得严丝合缝。

在同样的硬件条件下，D4RT能处理的轨迹数量是其他方法的18到300倍。

在实时视频处理上，D4RT把大家都甩在了身后。

用数据说话的全能冠军

在TAPVid-3D这个专门测试视频追踪能力的考场上，D4RT不管是知道相机参数，还是不知道相机参数，成绩都遥遥领先。

特别是在世界坐标系的追踪测试中，D4RT展现了惊人的空间理解能力。

即使相机在动，物体也在动，它依然能稳稳地锁死每一个点在真实世界里的绝对位置。

这就像是一个狙击手，不管自己在车上怎么颠簸，目标怎么跑，枪口始终稳稳地指着靶心。

在深度估计和点云重建这种硬核几何任务上，D4RT同样是大满贯选手。

在Sintel这样充满动态模糊和复杂光影的地狱级难度数据集上，D4RT的误差极低。

它对相机姿态的估计也准得离谱。

表6显示，无论是在室内的ScanNet还是室外的Sintel，D4RT都比之前的最强模型还要强上一大截。

为什么它能这么强？研究人员发现，之前提到的那个看小照片（RGB Patch）的策略至关重要。

此外，模型越大，效果越好。

从ViT-B换到ViT-g，深度估计的准确率肉眼可见地提升。

D4RT用一种极其优雅的方式，把视频里的三维世界看得清清楚楚。

参考资料：

https://d4rt-paper.github.io/

https://arxiv.org/pdf/2512.08924

https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

比SOTA快9倍，谷歌DeepMind时空重建，把视频变成时空搜索引擎

把视频变成时空搜索引擎

一个大脑，无数个分身

聪明的收割机策略

用数据说话的全能冠军

使用LLM在Cursor中进行大规模代码重构的实用指南

Vivado安装教程：Linux平台详细配置步骤

亲测推荐！UNet Face Fusion镜像效果超出预期

Deepoc具身大模型：从技术原理到产业落地的深度解析

终于找到好用的中文语音识别了！SenseVoiceSmall亲测可用

小白必备的人脸融合神器，UNet+WebUI一键部署实操分享