DeepMind深夜炸街！内部自曝：Project Genie不是用来做游戏的！网友连呼疯狂：涌现能力超出预期！从今天起，普通人也能构建梦境世界了！-深圳市維司達科技有限公司

Project Genie 主要原理就是基于去年 8 月谷歌推出的 Genie 3 世界模型，结合 Nano Banana Pro 和 Gemini 的原型 Web 应用，从文本提示实时生成可互动的虚拟世界，用户可探索、修改环境并创建角色，可以说为普通大众打开了一扇亲身沉浸式体验世界模型的大门。

今天一早，Google DeeMind CEO Demis Hassabis 终于放出了之前在达沃斯期间就曾透露的重磅产品 Project Genie。

Demis 在 X 发了一条很激动的帖子：这次《盗梦空间》成为现实了！

Genie 项目对我来说意义非凡，因为自己职业生涯的起点就是模拟游戏制作 AI，并研究大脑中的记忆和想象力。

Genie 将所有这些元素融合在一起。甚至让自己联想到了电影《盗梦空间》中的梦境序列——科幻成为了现实……

如果不看宣传片，单凭文字来形容这款产品，总归有些难以想象。

通过官方放出的宣传片中可以看出，这次推出的 Project Genie 项目，依旧属于 DeepMind 的实验性原型阶段，但已经对外正式开放！

当然这个项目的灵感，Demis上面也提到了：源自于其早期游戏 AI 开发和大脑记忆研究。

马斯克也忍不住在评论区，为这个项目点赞：Cool！

三项主打的“世界”功能：草绘、探索、重混

此次，Project Genie 主打三项核心体验。

世界草绘（World Sketching）、世界探索（World Exploring）和世界重混（World Remixing）。

这就为大家逐一介绍下。

首先，世界草绘是指，用户可以通过文本提示，以及生成或上传的图片，来创建一个“活的”、不断扩展的环境。同时，还支持用户创建角色、设定世界，并定义探索方式——无论是步行、骑行、飞行、驾驶，还是其他方式。

据谷歌官网介绍，为了实现更精细的控制，该项目将World Sketching与Nano Banana Pro进行了整合。

用户甚至可以在进入世界前，预览世界的样子，并对图像进行修改，以微调最终效果。

另一个不错的体验是，用户还可以设定角色的视角，例如第一人称或第三人称，从而在进入世界前，就决定如何体验这个场景。

小编看来，单凭这一点，足以看出谷歌 DeepMind 在世界模型方面的扎实功底。

可以说成功将 AlphaGo 的模拟框架，扩展到了如今的物理、机器人和虚构场景。

但遗憾依旧是有的，谷歌坦承，当前生成时长限于 60 秒，物理模拟不完全逼真。

第二，世界探索。

生成的世界是一个可以自由导航的环境，等待你去探索。

当你在世界中移动时，Project Genie 会根据你的行为，实时生成前方的路径。你还可以在探索过程中随时调整摄像机视角。

这一点虽然说起来容易，但实现起来挺难。涉及到物理世界的位置、物理方位感知等等细节控制，重要的是实时生成这些，更难。

最后一个，世界重混。简单理解，就是二次编辑你刚才构建的世界。

你可以在已有世界的提示词基础上进行再创作，生成新的世界版本；也可以浏览画廊中策划好的世界，或使用随机生成器获取灵感，并在此基础上继续构建。

而且这些构建的好的世界以及探索过程，都可以自己下载下来。

目前仅限美国 Google AI Ultra 订阅用户访问，引发 Elon Musk 等正面回应和 Reddit 讨论，认为虽未达手工游戏水准，但标志生成式 AI 在互动内容创作的重大进步，未来计划扩展全球并优化控制性。

尝鲜网友们：玩疯了

很快，不少早期体验的达人们整起了活儿。

效果简直比官宣的视频还要非常惊艳。印象深刻的是一位博主将一张20世纪初的伦敦上空俯瞰的老照片喂给了Project Genie。

结果下一秒就给出了逼真的 3D 世界！

不过这位博主表示，他想给 Demis 个反馈：虽然 Genie 真的生成了一座城市、但仅限于照片里的内容，并没有生成照片外的属于伦敦的内容。

另外还有一个实测者觉得很 amazing 的地方，Project Genie 有一种超预期的涌现能力！

例如，一位博主在第一人称导航中，GPS 小地图与视角运动保持同步→ 测试者称这是“完全没有预期到的涌现能力”。

多位参与者反复提到一个感受：

同一个 prompt、不同的人，会走向完全不同的体验路径。

这带来了一种久违的感觉：模型本身就是一个很值得探索的产品！

此外，这位博主很确定的透露一个消息：Genie4、5版本一定在研发的路上。

DeepMind内部员工：不是用来做游戏的

另外，DeepMind内部团队成员在播客中也反复强调了一点：

Project Genie 并不是用来直接“做游戏”，而是用来快速原型化世界与体验的，为所有人打造的、可互动的“世界构建器”。

目前，它的的用例是较为模糊的，它更多是帮助创作者在极早期验证“感觉对不对”，当然还会有更多的用例涌现出来，比如灾难恢复领域等等。

Genie 真正“新”的地方在哪？

世界模型，本身已经不算是个新鲜词了。AI 生成无限的视频内容，同样在早在两年前就爆火了。

那么，这次的谷歌新发布到底“新”在哪里呢？

结合美国达人的体验反馈，小编认为总结起来就一句话：

这次 Project Genie 的亮点，画面精细度、生成速度这些倒是其次，最关键的变化，是把“内容生成”推进到了“环境生成”。

具体体现在三件事上：

一、世界是连续生成的。你没有看到“边界”。你往前走，前方的世界才被计算出来。

二、世界会响应行为。移动路径、视角变化、行动方式，都会影响接下来生成的环境，注意，是环境级建模。

三、世界具备一致性。场景结构、空间关系、基本物理规则能够维持稳定，不再是“每一帧都在变脸。

这无疑可以说是一个从“AI 视频玩具”转向“真正的世界模型”的一个里程碑式的信号。

这和 Sora、游戏引擎有什么不同？

这是很多人第一时间的疑问。跟大家之前看到的 Sora 生成视频不一样， Genie 3 生成的更像一个“正在运行的环境”。

简单区分一下：

视频模型：生成一段完整结果，你负责看
游戏引擎：规则由人写好，世界按脚本运行
Genie：模型在实时计算，世界接下来该如何继续

换句话说，Project Genie 的重点不在“画得多像”，而在于世界如何运转。

这也是 Google 把它称为 world model 的原因。

为什么 Google 现在要推它？

从 DeepMind 的历史来看，这一步并不突然。

过去十多年，DeepMind 非常擅长封闭环境中的智能体：围棋、象棋、Atari 游戏。

但现实世界不是棋盘。它是连续的、不确定的、充满变化的。如果 AI 要真正走向通用能力，它必须学会在“世界”中行动，而不仅是调用工具。

世界模型，正是连接 Agent、机器人、现实模拟的关键底座。

没有世界模型，Agent 只能停留在工具层。有了世界模型，Agent 才有“活动的空间”。

Demis 在达沃斯之后的采访就曾这样表示过：

世界模型是 AGI 的关键，因为它允许系统在现实世界中进行长期规划。这正是人类轻松做到、但当前 AI 仍然无法完成的事情。

官方的克制，其实是另一种信号

在发布中，Google 反复强调 Project Genie 仍是实验原型，并主动列出限制，比如：

世界生成时长限制为 60 秒
行为控制存在延迟
世界可能不完全遵循真实物理
部分已公布能力尚未开放

但据小编从播客中了解到：其中不少限制，其实并非模型本身的技术原因，更多还是产品策略的原因。

例如：关于 60 秒限制，团队说得很明确：这是人为设定的体验边界，并非模型的根本限制。通过“上一帧接续生成”等方式，已经可以手动延展世界。

而且，从 Google 的惯例来看，这其实意味着另一件事：方向已经确认，剩下的是工程问题。

最后，坐等谷歌将美国地区限制开放给全世界吧！

参考链接：https://www.youtube.com/watch?v=lALGud1Ynhc

view-source:https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie/

最后，小编顺带做一个调研。

新年伊始，这里有一份 IDC 发起的全球大模型问卷调查。题目简单、几分钟就能完成，却能帮我们捕捉真实的模型行业认知。

DeepMind深夜炸街！内部自曝：Project Genie不是用来做游戏的！网友连呼疯狂：涌现能力超出预期！从今天起，普通人也能构建梦境世界了！

三项主打的“世界”功能：草绘、探索、重混

尝鲜网友们：玩疯了

DeepMind内部员工：不是用来做游戏的

Genie 真正“新”的地方在哪？

这和 Sora、游戏引擎有什么不同？

为什么 Google 现在要推它？

官方的克制，其实是另一种信号

解决算力瓶颈，给多模态瘦身！Token压缩完整图谱与选型指南

什么是Context Engineering？一文读懂AI黑话之“上下文工程”

想成为“白帽子”？这8个网络安全学习网站不收藏你就亏了！

精通 TypeScript：常见陷阱与调试技巧

工业设备点巡检精细化管理系统方案

基于微信小程序的流浪动物管理系统