news 2026/5/4 6:30:02

DeepMind深夜炸街!内部自曝:Project Genie不是用来做游戏的!网友连呼疯狂:涌现能力超出预期!从今天起,普通人也能构建梦境世界了!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DeepMind深夜炸街!内部自曝:Project Genie不是用来做游戏的!网友连呼疯狂:涌现能力超出预期!从今天起,普通人也能构建梦境世界了!

Project Genie 主要原理就是基于去年 8 月谷歌推出的 Genie 3 世界模型,结合 Nano Banana Pro 和 Gemini 的原型 Web 应用,从文本提示实时生成可互动的虚拟世界,用户可探索、修改环境并创建角色,可以说为普通大众打开了一扇亲身沉浸式体验世界模型的大门。

今天一早,Google DeeMind CEO Demis Hassabis 终于放出了之前在达沃斯期间就曾透露的重磅产品 Project Genie。

Demis 在 X 发了一条很激动的帖子:这次《盗梦空间》成为现实了!

Genie 项目对我来说意义非凡,因为自己职业生涯的起点就是模拟游戏制作 AI,并研究大脑中的记忆和想象力。

Genie 将所有这些元素融合在一起。甚至让自己联想到了电影《盗梦空间》中的梦境序列——科幻成为了现实……

如果不看宣传片,单凭文字来形容这款产品,总归有些难以想象。

通过官方放出的宣传片中可以看出,这次推出的 Project Genie 项目,依旧属于 DeepMind 的实验性原型阶段,但已经对外正式开放!

Project Genie 主要原理就是基于去年 8 月谷歌推出的 Genie 3 世界模型,结合 Nano Banana Pro 和 Gemini 的原型 Web 应用,从文本提示实时生成可互动的虚拟世界,用户可探索、修改环境并创建角色,可以说为普通大众打开了一扇亲身沉浸式体验世界模型的大门。

当然这个项目的灵感,Demis上面也提到了:源自于其早期游戏 AI 开发和大脑记忆研究。

马斯克也忍不住在评论区,为这个项目点赞:Cool!

三项主打的“世界”功能:草绘、探索、重混

此次,Project Genie 主打三项核心体验。

世界草绘(World Sketching)、世界探索(World Exploring)和世界重混(World Remixing)。

这就为大家逐一介绍下。

首先,世界草绘是指,用户可以通过文本提示,以及生成或上传的图片,来创建一个“活的”、不断扩展的环境。同时,还支持用户创建角色、设定世界,并定义探索方式——无论是步行、骑行、飞行、驾驶,还是其他方式。

据谷歌官网介绍,为了实现更精细的控制,该项目将World SketchingNano Banana Pro进行了整合。

用户甚至可以在进入世界前,预览世界的样子,并对图像进行修改,以微调最终效果。

另一个不错的体验是,用户还可以设定角色的视角,例如第一人称或第三人称,从而在进入世界前,就决定如何体验这个场景。

小编看来,单凭这一点,足以看出谷歌 DeepMind 在世界模型方面的扎实功底。

可以说成功将 AlphaGo 的模拟框架,扩展到了如今的物理、机器人和虚构场景。

但遗憾依旧是有的,谷歌坦承,当前生成时长限于 60 秒,物理模拟不完全逼真。

第二,世界探索。

生成的世界是一个可以自由导航的环境,等待你去探索。

当你在世界中移动时,Project Genie 会根据你的行为,实时生成前方的路径。你还可以在探索过程中随时调整摄像机视角。

这一点虽然说起来容易,但实现起来挺难。涉及到物理世界的位置、物理方位感知等等细节控制,重要的是实时生成这些,更难。

最后一个,世界重混。简单理解,就是二次编辑你刚才构建的世界。

你可以在已有世界的提示词基础上进行再创作,生成新的世界版本;也可以浏览画廊中策划好的世界,或使用随机生成器获取灵感,并在此基础上继续构建。

而且这些构建的好的世界以及探索过程,都可以自己下载下来。

目前仅限美国 Google AI Ultra 订阅用户访问,引发 Elon Musk 等正面回应和 Reddit 讨论,认为虽未达手工游戏水准,但标志生成式 AI 在互动内容创作的重大进步,未来计划扩展全球并优化控制性。

尝鲜网友们:玩疯了

很快,不少早期体验的达人们整起了活儿。

效果简直比官宣的视频还要非常惊艳。印象深刻的是一位博主将一张20世纪初的伦敦上空俯瞰的老照片喂给了Project Genie。

结果下一秒就给出了逼真的 3D 世界!

不过这位博主表示,他想给 Demis 个反馈:虽然 Genie 真的生成了一座城市、但仅限于照片里的内容,并没有生成照片外的属于伦敦的内容。

另外还有一个实测者觉得很 amazing 的地方,Project Genie 有一种超预期的涌现能力!

例如,一位博主在第一人称导航中,GPS 小地图与视角运动保持同步→ 测试者称这是“完全没有预期到的涌现能力”。

多位参与者反复提到一个感受:

同一个 prompt、不同的人,会走向完全不同的体验路径。

这带来了一种久违的感觉:模型本身就是一个很值得探索的产品!

此外,这位博主很确定的透露一个消息:Genie4、5版本一定在研发的路上。

DeepMind内部员工:不是用来做游戏的

另外,DeepMind内部团队成员在播客中也反复强调了一点:

Project Genie 并不是用来直接“做游戏”,而是用来快速原型化世界与体验的,为所有人打造的、可互动的“世界构建器”。

目前,它的的用例是较为模糊的,它更多是帮助创作者在极早期验证“感觉对不对”,当然还会有更多的用例涌现出来,比如灾难恢复领域等等。

Genie 真正“新”的地方在哪?

世界模型,本身已经不算是个新鲜词了。AI 生成无限的视频内容,同样在早在两年前就爆火了。

那么,这次的谷歌新发布到底“新”在哪里呢?

结合美国达人的体验反馈,小编认为总结起来就一句话:

这次 Project Genie 的亮点,画面精细度、生成速度这些倒是其次,最关键的变化,是把“内容生成”推进到了“环境生成”。

具体体现在三件事上:

一、世界是连续生成的。你没有看到“边界”。你往前走,前方的世界才被计算出来。

二、世界会响应行为。移动路径、视角变化、行动方式,都会影响接下来生成的环境,注意,是环境级建模。

三、世界具备一致性。场景结构、空间关系、基本物理规则能够维持稳定,不再是“每一帧都在变脸。

这无疑可以说是一个从“AI 视频玩具”转向“真正的世界模型”的一个里程碑式的信号。

这和 Sora、游戏引擎有什么不同?

这是很多人第一时间的疑问。跟大家之前看到的 Sora 生成视频不一样, Genie 3 生成的更像一个“正在运行的环境”。

简单区分一下:

  • 视频模型:生成一段完整结果,你负责看
  • 游戏引擎:规则由人写好,世界按脚本运行
  • Genie:模型在实时计算,世界接下来该如何继续

换句话说,Project Genie 的重点不在“画得多像”,而在于世界如何运转

这也是 Google 把它称为 world model 的原因。

为什么 Google 现在要推它?

从 DeepMind 的历史来看,这一步并不突然。

过去十多年,DeepMind 非常擅长封闭环境中的智能体:围棋、象棋、Atari 游戏。

但现实世界不是棋盘。它是连续的、不确定的、充满变化的。如果 AI 要真正走向通用能力,它必须学会在“世界”中行动,而不仅是调用工具。

世界模型,正是连接 Agent、机器人、现实模拟的关键底座。

没有世界模型,Agent 只能停留在工具层。有了世界模型,Agent 才有“活动的空间”。

Demis 在达沃斯之后的采访就曾这样表示过:

世界模型是 AGI 的关键,因为它允许系统在现实世界中进行长期规划。这正是人类轻松做到、但当前 AI 仍然无法完成的事情。

官方的克制,其实是另一种信号

在发布中,Google 反复强调 Project Genie 仍是实验原型,并主动列出限制,比如:

  • 世界生成时长限制为 60 秒
  • 行为控制存在延迟
  • 世界可能不完全遵循真实物理
  • 部分已公布能力尚未开放

但据小编从播客中了解到:其中不少限制,其实并非模型本身的技术原因,更多还是产品策略的原因。

例如:关于 60 秒限制,团队说得很明确:这是人为设定的体验边界,并非模型的根本限制。通过“上一帧接续生成”等方式,已经可以手动延展世界。

而且,从 Google 的惯例来看,这其实意味着另一件事:方向已经确认,剩下的是工程问题。

最后,坐等谷歌将美国地区限制开放给全世界吧!

参考链接:https://www.youtube.com/watch?v=lALGud1Ynhc

view-source:https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie/

最后,小编顺带做一个调研。

新年伊始,这里有一份 IDC 发起的全球大模型问卷调查。题目简单、几分钟就能完成,却能帮我们捕捉 真实的模型行业认知。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/24 14:01:30

解决算力瓶颈,给多模态瘦身!Token压缩完整图谱与选型指南

北京大学等联合团队深入剖析了多模态大模型Token压缩技术的全貌,从视觉编码器、投影器到语言模型的全链路优化策略,并揭示高效多模态智能的未来演进路径。给多模态大模型瘦身已成为解决算力瓶颈的关键。Token压缩技术通过剔除视觉冗余,在保留…

作者头像 李华
网站建设 2026/5/3 10:19:54

什么是Context Engineering?一文读懂AI黑话之“上下文工程”

自从ChatGPT横空出世以来,AI“黑话”层出不穷,什么RAG、Agent、MCP、A2A... 现在又来了个Context Engineering(上下文工程),是不是有点懵,别担心,这篇文章会一一给你解答。 你好,我是…

作者头像 李华
网站建设 2026/5/3 9:37:58

想成为“白帽子”?这8个网络安全学习网站不收藏你就亏了!

在这个信息爆炸的时代,人人都想成为“黑客”大佬。但是,在对计算机和网络安全的基础知识一无所知之前,这可不是闹着玩的。对于初学者来说,黑客世界里有两大门派:Ethical Hacking(白帽)和Unethic…

作者头像 李华
网站建设 2026/5/1 12:13:52

精通 TypeScript:常见陷阱与调试技巧

精通 TypeScript:常见陷阱与调试技巧 欢迎阅读本专栏的第四十五篇文章,也是这一系列的收官之作。在前几期中,我们已从 TypeScript 的入门基础逐步推进到高级应用和实际项目实践,包括接口与类的构建、泛型与高级类型的运用、框架整…

作者头像 李华
网站建设 2026/4/23 12:47:24

工业设备点巡检精细化管理系统方案

在工业企业的管理体系中,设备点巡检是串联生产、质量、安全、成本等要素的重要环节,不仅仅只是检查设备是否整成运行,更是实现设备管理从“被动救火”转向“主动预防”的重要途径。设备点检的缺失或失效,会直接导致企业管理体系“…

作者头像 李华
网站建设 2026/5/1 9:24:50

基于微信小程序的流浪动物管理系统

收藏关注不迷路!! 🌟文末获取源码数据库🌟 感兴趣的可以先收藏起来,还有大家在毕设选题(免费咨询指导选题),项目以及论文编写等相关问题都可以给我留言咨询,希望帮助更多…

作者头像 李华