Project Genie 主要原理就是基于去年 8 月谷歌推出的 Genie 3 世界模型,结合 Nano Banana Pro 和 Gemini 的原型 Web 应用,从文本提示实时生成可互动的虚拟世界,用户可探索、修改环境并创建角色,可以说为普通大众打开了一扇亲身沉浸式体验世界模型的大门。
今天一早,Google DeeMind CEO Demis Hassabis 终于放出了之前在达沃斯期间就曾透露的重磅产品 Project Genie。
Demis 在 X 发了一条很激动的帖子:这次《盗梦空间》成为现实了!
Genie 项目对我来说意义非凡,因为自己职业生涯的起点就是模拟游戏制作 AI,并研究大脑中的记忆和想象力。
Genie 将所有这些元素融合在一起。甚至让自己联想到了电影《盗梦空间》中的梦境序列——科幻成为了现实……
如果不看宣传片,单凭文字来形容这款产品,总归有些难以想象。
通过官方放出的宣传片中可以看出,这次推出的 Project Genie 项目,依旧属于 DeepMind 的实验性原型阶段,但已经对外正式开放!
Project Genie 主要原理就是基于去年 8 月谷歌推出的 Genie 3 世界模型,结合 Nano Banana Pro 和 Gemini 的原型 Web 应用,从文本提示实时生成可互动的虚拟世界,用户可探索、修改环境并创建角色,可以说为普通大众打开了一扇亲身沉浸式体验世界模型的大门。
当然这个项目的灵感,Demis上面也提到了:源自于其早期游戏 AI 开发和大脑记忆研究。
马斯克也忍不住在评论区,为这个项目点赞:Cool!
三项主打的“世界”功能:草绘、探索、重混
此次,Project Genie 主打三项核心体验。
世界草绘(World Sketching)、世界探索(World Exploring)和世界重混(World Remixing)。
这就为大家逐一介绍下。
首先,世界草绘是指,用户可以通过文本提示,以及生成或上传的图片,来创建一个“活的”、不断扩展的环境。同时,还支持用户创建角色、设定世界,并定义探索方式——无论是步行、骑行、飞行、驾驶,还是其他方式。
据谷歌官网介绍,为了实现更精细的控制,该项目将World Sketching与Nano Banana Pro进行了整合。
用户甚至可以在进入世界前,预览世界的样子,并对图像进行修改,以微调最终效果。
另一个不错的体验是,用户还可以设定角色的视角,例如第一人称或第三人称,从而在进入世界前,就决定如何体验这个场景。
小编看来,单凭这一点,足以看出谷歌 DeepMind 在世界模型方面的扎实功底。
可以说成功将 AlphaGo 的模拟框架,扩展到了如今的物理、机器人和虚构场景。
但遗憾依旧是有的,谷歌坦承,当前生成时长限于 60 秒,物理模拟不完全逼真。
第二,世界探索。
生成的世界是一个可以自由导航的环境,等待你去探索。
当你在世界中移动时,Project Genie 会根据你的行为,实时生成前方的路径。你还可以在探索过程中随时调整摄像机视角。
这一点虽然说起来容易,但实现起来挺难。涉及到物理世界的位置、物理方位感知等等细节控制,重要的是实时生成这些,更难。
最后一个,世界重混。简单理解,就是二次编辑你刚才构建的世界。
你可以在已有世界的提示词基础上进行再创作,生成新的世界版本;也可以浏览画廊中策划好的世界,或使用随机生成器获取灵感,并在此基础上继续构建。
而且这些构建的好的世界以及探索过程,都可以自己下载下来。
目前仅限美国 Google AI Ultra 订阅用户访问,引发 Elon Musk 等正面回应和 Reddit 讨论,认为虽未达手工游戏水准,但标志生成式 AI 在互动内容创作的重大进步,未来计划扩展全球并优化控制性。
尝鲜网友们:玩疯了
很快,不少早期体验的达人们整起了活儿。
效果简直比官宣的视频还要非常惊艳。印象深刻的是一位博主将一张20世纪初的伦敦上空俯瞰的老照片喂给了Project Genie。
结果下一秒就给出了逼真的 3D 世界!
不过这位博主表示,他想给 Demis 个反馈:虽然 Genie 真的生成了一座城市、但仅限于照片里的内容,并没有生成照片外的属于伦敦的内容。
另外还有一个实测者觉得很 amazing 的地方,Project Genie 有一种超预期的涌现能力!
例如,一位博主在第一人称导航中,GPS 小地图与视角运动保持同步→ 测试者称这是“完全没有预期到的涌现能力”。
多位参与者反复提到一个感受:
同一个 prompt、不同的人,会走向完全不同的体验路径。
这带来了一种久违的感觉:模型本身就是一个很值得探索的产品!
此外,这位博主很确定的透露一个消息:Genie4、5版本一定在研发的路上。
DeepMind内部员工:不是用来做游戏的
另外,DeepMind内部团队成员在播客中也反复强调了一点:
Project Genie 并不是用来直接“做游戏”,而是用来快速原型化世界与体验的,为所有人打造的、可互动的“世界构建器”。
目前,它的的用例是较为模糊的,它更多是帮助创作者在极早期验证“感觉对不对”,当然还会有更多的用例涌现出来,比如灾难恢复领域等等。
Genie 真正“新”的地方在哪?
世界模型,本身已经不算是个新鲜词了。AI 生成无限的视频内容,同样在早在两年前就爆火了。
那么,这次的谷歌新发布到底“新”在哪里呢?
结合美国达人的体验反馈,小编认为总结起来就一句话:
这次 Project Genie 的亮点,画面精细度、生成速度这些倒是其次,最关键的变化,是把“内容生成”推进到了“环境生成”。
具体体现在三件事上:
一、世界是连续生成的。你没有看到“边界”。你往前走,前方的世界才被计算出来。
二、世界会响应行为。移动路径、视角变化、行动方式,都会影响接下来生成的环境,注意,是环境级建模。
三、世界具备一致性。场景结构、空间关系、基本物理规则能够维持稳定,不再是“每一帧都在变脸。
这无疑可以说是一个从“AI 视频玩具”转向“真正的世界模型”的一个里程碑式的信号。
这和 Sora、游戏引擎有什么不同?
这是很多人第一时间的疑问。跟大家之前看到的 Sora 生成视频不一样, Genie 3 生成的更像一个“正在运行的环境”。
简单区分一下:
- 视频模型:生成一段完整结果,你负责看
- 游戏引擎:规则由人写好,世界按脚本运行
- Genie:模型在实时计算,世界接下来该如何继续
换句话说,Project Genie 的重点不在“画得多像”,而在于世界如何运转。
这也是 Google 把它称为 world model 的原因。
为什么 Google 现在要推它?
从 DeepMind 的历史来看,这一步并不突然。
过去十多年,DeepMind 非常擅长封闭环境中的智能体:围棋、象棋、Atari 游戏。
但现实世界不是棋盘。它是连续的、不确定的、充满变化的。如果 AI 要真正走向通用能力,它必须学会在“世界”中行动,而不仅是调用工具。
世界模型,正是连接 Agent、机器人、现实模拟的关键底座。
没有世界模型,Agent 只能停留在工具层。有了世界模型,Agent 才有“活动的空间”。
Demis 在达沃斯之后的采访就曾这样表示过:
世界模型是 AGI 的关键,因为它允许系统在现实世界中进行长期规划。这正是人类轻松做到、但当前 AI 仍然无法完成的事情。
官方的克制,其实是另一种信号
在发布中,Google 反复强调 Project Genie 仍是实验原型,并主动列出限制,比如:
- 世界生成时长限制为 60 秒
- 行为控制存在延迟
- 世界可能不完全遵循真实物理
- 部分已公布能力尚未开放
但据小编从播客中了解到:其中不少限制,其实并非模型本身的技术原因,更多还是产品策略的原因。
例如:关于 60 秒限制,团队说得很明确:这是人为设定的体验边界,并非模型的根本限制。通过“上一帧接续生成”等方式,已经可以手动延展世界。
而且,从 Google 的惯例来看,这其实意味着另一件事:方向已经确认,剩下的是工程问题。
最后,坐等谷歌将美国地区限制开放给全世界吧!
参考链接:https://www.youtube.com/watch?v=lALGud1Ynhc
view-source:https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie/
最后,小编顺带做一个调研。
新年伊始,这里有一份 IDC 发起的全球大模型问卷调查。题目简单、几分钟就能完成,却能帮我们捕捉 真实的模型行业认知。