news 2026/4/23 18:34:16

比SOTA快9倍,谷歌DeepMind时空重建,把视频变成时空搜索引擎

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
比SOTA快9倍,谷歌DeepMind时空重建,把视频变成时空搜索引擎

谷歌DeepMind联合伦敦大学和牛津大学发布了一个叫D4RT的时空重建框架,彻底颠覆了我们把视频变成3D世界的传统路子。

它不再像过去那样笨重地试图一次性把整个世界算出来,而是像一个随叫随到的时空向导,你问它哪里,它就告诉你哪里。

D4RT给视频装上了时光机,像查字典一样重建3D,让动态场景理解变得轻而易举。

把视频变成时空搜索引擎

想象一下,你正在看一部动作电影,画面里主角在奔跑,背景里的车在开,树叶在飘。

对于人类来说,理解这个场景是三维的、动态的非常自然,但对于计算机来说,这一直是个噩梦般的难题。

以前的AI要想把这段视频变成3D模型,通常采用的是笨办法。

它们试图做一个全知全能的画师,每一帧画面、每一个像素、每一秒钟,都要把它的3D位置、深度、形状全部算出来,不管你需不需要。

这就好比你要查一个单词,旧式的AI会把整本字典从头到尾抄写一遍给你看。

这种做法在面对静止的物体时还勉强凑合,一旦遇到跑动的动物、飞驰的汽车,计算量就会爆炸,而且经常出错,要么画面撕裂,要么东西凭空消失。

谷歌DeepMind联合团队带来的D4RT,不再试图一次性抄写整本字典,而是把自己变成了一个极速的搜索引擎。

D4RT的核心逻辑极其简单:按需提问。

它先看一遍视频,把整个场景的规律记在脑子里,然后你就只管问它。

你想知道那是只天鹅在第10秒飞到哪了?它告诉你。

你想知道摄影师当时是蹲着还是站着?它也告诉你。

你想把整个场景的3D地图画出来?它还是能告诉你。

这种指哪打哪的策略,直接绕开了那些繁重且无用的计算,让处理动态视频变得轻盈又高效。

看上面这张图,D4RT就像一个万能插座,所有的3D任务,不管是点云、轨迹追踪还是相机参数,都能通过同一个接口搞定。

这种设计让它跑得飞快,训练起来也特别省事。

以前那些像拼积木一样凑出来的模型,比如MegaSaM,要把好几个不同的模型强行拼在一起,还得费劲地让它们别打架。

而D4RT是一个整体,从头到尾一气呵成。

转个弯,从全量计算变成按需查询,处理复杂的动态世界其实可以很简单。

一个大脑,无数个分身

D4RT的内部结构美得像一个精巧的沙漏。

它的工作流程分为两步,简单来说就是先读书,后答题。

第一步是读书,也就是编码阶段。

视频被送进一个强大的编码器,这个编码器就像是一个过目不忘的大脑,它会把视频里物体怎么动、时间怎么流逝、哪里是前哪里是后等所有的信息,全部压缩成一个叫做全局场景表示的东西。

你可以把这个全局场景表示想象成一本已经被读懂并浓缩了的天书。

一旦这本天书写好了,第一阶段就结束了,接下来的所有操作都不需要再重新看视频,只需要查阅这本天书。

第二阶段是答题,也就是解码阶段。

这里有一个特别轻量级的解码器,它的工作就是回答你的问题。

这个提问的过程非常有趣,就像是在用一个时空坐标系玩填空题。

你给解码器一个坐标,告诉它:我要找第1帧里坐标是(u, v)的那个点,请告诉我它在第10帧的时候,如果我站在第5帧的相机位置看它,它在三维空间里的哪里?

这听起来有点绕,但正是这种灵活度让D4RT变得无比强大。

它实现了时间和空间的完全解绑。

你不需要非得站在现在的时刻看现在的东西,你可以站在过去看未来,也可以站在未来看过去。

每一个问题都是独立回答的,互不干扰。

如果你只关心画面里的一只小鸟,你就只问关于小鸟的问题,计算量极小。

如果你想重建整个森林,那你就问几百万个问题,虽然问题多了,但因为每个问题之间没有复杂的纠缠,计算机可以并行处理,速度依然飞快。

如表1所示,D4RT就像一把瑞士军刀,虽然只有一个刀柄(统一接口),但能变出各种工具。

你想看轨迹?就固定住一个点,问它每一帧在哪里。

你想看深度图?就问它这一帧里所有像素距离摄像头多远。

甚至连相机的参数(比如焦距、拍摄角度)它也能反推出来。

推导相机参数的过程就像是在做几何拼图。

它先问出同一个点在不同时间的位置,然后用一种叫Umeyama的算法(你可以理解为一种找最佳匹配的数学工具),算出这两个时刻之间相机是怎么移动的。

这背后的技术细节里有一个很有意思的点:它不仅看位置,还看长相。

在提问的时候,D4RT会给坐标,还会切一块这个点周围的小图片(RGB Patch)给解码器看。

这就好比警察找人,光给一个地址不够,如果再给一张照片,找到的概率就大多了。

实验发现,加上这块小图片,准确率直接飙升。

D4RT的速度达到了每秒200帧以上,比第二名快了9倍,比那个拼凑出来的MegaSaM快了整整100倍。

聪明的收割机策略

D4RT最厉害的一点,是它能追踪视频里每一个像素,不管它是静止的背景还是乱动的物体。

想要做到这一点,如果笨笨地对每个像素都从头追到尾,计算量还是会很大。

于是,D4RT发明了一套聪明收割机算法(Algorithm 1)。

这套算法的逻辑是这样的:

想象你在一片麦田里(视频像素网格),你要把麦子都收割了(追踪所有点)。

笨办法是派无数个收割机,不管那块地有没有收过,都开一遍。

D4RT的办法是:先派一批收割机出发。

每台收割机走过的路径,它都会在地图上标记为已收割。

下一波收割机出发前,先看看地图,凡是已经标记了已收割的地方,就不再派人去了,只去那些还没人碰过的空白区域。

这样一轮一轮下来,它能以最快的速度覆盖所有的像素,绝不做无用功。

实验表明,这种策略能根据视频的复杂程度,把速度再提升5到15倍。

这就是为什么D4RT能做到既全覆盖,又快得惊人。

其他的模型要么把天鹅画出了重影(MegaSaM),要么把花朵直接弄丢了。

哪怕是专门做追踪的SpatialTrackerV2,也因为只能追踪第一帧看得见的点,导致天鹅游走后,原本被天鹅挡住的水面它就不知道该咋办了,留下一个个黑洞。

只有D4RT,像个完美的修复师,不管是遮挡还是运动,它都能把整个4D时空填补得严丝合缝。

在同样的硬件条件下,D4RT能处理的轨迹数量是其他方法的18到300倍。

在实时视频处理上,D4RT把大家都甩在了身后。

用数据说话的全能冠军

在TAPVid-3D这个专门测试视频追踪能力的考场上,D4RT不管是知道相机参数,还是不知道相机参数,成绩都遥遥领先。

特别是在世界坐标系的追踪测试中,D4RT展现了惊人的空间理解能力。

即使相机在动,物体也在动,它依然能稳稳地锁死每一个点在真实世界里的绝对位置。

这就像是一个狙击手,不管自己在车上怎么颠簸,目标怎么跑,枪口始终稳稳地指着靶心。

在深度估计和点云重建这种硬核几何任务上,D4RT同样是大满贯选手。

在Sintel这样充满动态模糊和复杂光影的地狱级难度数据集上,D4RT的误差极低。

它对相机姿态的估计也准得离谱。

表6显示,无论是在室内的ScanNet还是室外的Sintel,D4RT都比之前的最强模型还要强上一大截。

为什么它能这么强?研究人员发现,之前提到的那个看小照片(RGB Patch)的策略至关重要。

此外,模型越大,效果越好。

从ViT-B换到ViT-g,深度估计的准确率肉眼可见地提升。

D4RT用一种极其优雅的方式,把视频里的三维世界看得清清楚楚。

参考资料:

https://d4rt-paper.github.io/

https://arxiv.org/pdf/2512.08924

https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 14:34:12

使用LLM在Cursor中进行大规模代码重构的实用指南

如何利用LLM在Cursor中进行大规模代码重构 在这篇文章中,我将介绍我使用LLM编程助手进行代码重构的方法。代码重构一直以来都是一项繁琐但重要的工作。重构是指对某段代码进行清理,无论是通过更好的关注点分离、遵循“不要重复自己”原则,还…

作者头像 李华
网站建设 2026/4/23 14:35:53

Vivado安装教程:Linux平台详细配置步骤

以下是对您提供的博文《Vivado Linux平台安装与配置深度技术解析》的 全面润色与重构版本 。本次优化严格遵循您的全部要求: ✅ 彻底消除AI生成痕迹,语言自然、专业、有“人味”——像一位在Xilinx支持团队干了8年、带过3届FPGA工程师培训的老手在深夜…

作者头像 李华
网站建设 2026/4/23 9:54:22

亲测推荐!UNet Face Fusion镜像效果超出预期

亲测推荐!UNet Face Fusion镜像效果超出预期 最近在本地部署了多个AI人脸处理镜像,从美颜到换脸再到风格迁移,试过不下十款。但真正让我停下来反复测试、截图保存、甚至发给朋友体验的,只有这一款——UNet Face Fusion人脸融合镜…

作者头像 李华
网站建设 2026/4/23 16:16:44

Deepoc具身大模型:从技术原理到产业落地的深度解析

引言:具身智能的技术范式变革 在人工智能发展的新阶段,具身智能(Embodied AI)正成为推动机器人技术突破的关键方向。Deepoc具身大模型(VLA)外拓开发板的出现,不仅是一次产品创新,更…

作者头像 李华
网站建设 2026/4/23 13:19:50

终于找到好用的中文语音识别了!SenseVoiceSmall亲测可用

终于找到好用的中文语音识别了!SenseVoiceSmall亲测可用 你有没有试过把一段会议录音转成文字,结果错字连篇、标点全无、人名地名全乱套?或者录了一段客户反馈,想快速抓重点,却卡在“听不清”“分不清谁在说”“情绪完…

作者头像 李华
网站建设 2026/4/23 11:38:35

小白必备的人脸融合神器,UNet+WebUI一键部署实操分享

小白必备的人脸融合神器,UNetWebUI一键部署实操分享 1. 这不是换脸黑科技,而是你随手就能用的“人脸融合”工具 你有没有过这样的想法:把朋友的脸自然地“放”进一张风景照里,不突兀、不塑料;把老照片里模糊的脸换成…

作者头像 李华