news 2026/4/22 19:31:30

【论文自动阅读】Wow, wo, val! A Comprehensive Embodied World Model Evaluation Turing Test

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】Wow, wo, val! A Comprehensive Embodied World Model Evaluation Turing Test

快速了解部分

基础信息(英文):

  1. 题目: Wow, wo, val! A Comprehensive Embodied World Model Evaluation Turing Test
  2. 时间年月: 2025年(文档ID: 2601.04137,通常代表2026年1月提交,内容基于2025年研究)
  3. 机构名: Peking University (State Key Laboratory of Multimedia Information Processing), Beijing Innovation Center of Humanoid Robotics, The Hong Kong University of Science and Technology
  4. 3个英文关键词: Embodied AI, World Model, Turing Test

1句话通俗总结本文干了什么事情

本文建立了一个名为WoW-World-Eval的全面测试基准(图灵测试),用来评估视频生成模型是否具备像人类一样理解物理世界、进行规划并指导机器人行动的能力。

研究痛点:现有研究不足 / 要解决的具体问题

现有的视频生成基准主要关注视觉美感(如清晰度),忽略了机器人领域最需要的物理常识逻辑规划可执行性。这导致模型虽然生成的视频“看起来很真”,但物理上是错误的,无法指导真实机器人操作。

核心方法:关键技术、模型或研究设计(简要)

设计了一个多维度的评估基准WoW-World-Eval,包含22项指标,从感知、规划、预测、执行和泛化五个方面考核模型。同时提出了两种“图灵测试”:一种是人类图灵测试(看视频是否能骗过人类),另一种是逆动力学模型(IDM)图灵测试(看生成的视频能否被转换为真实机器人可执行的动作)。

深入了解部分

相比前人创新在哪里

  1. 维度更全:首次将**规划(Planning)执行(Execution)**纳入评估体系,而不仅仅是视觉质量。
  2. 评估更准:引入了基于人类偏好的评分体系(与人类评分相关性高达0.93),并提出了机器视角的IDM图灵测试来验证物理可执行性。
  3. 数据更精:构建了包含609个高质量机器人操作样本的数据集,涵盖长视界规划和物理交互。

解决方法/算法的通俗解释

想象你要考驾照,现在的基准只看你画的“行车记录画”漂不漂亮(视觉基准)。本文的方法是:不仅要看你画的画像不像(视觉质量),还要考官(人类)判断这画是否符合物理常识(比如车会不会飞),最后还要看你画的路线能不能让真的车开起来(IDM测试)。

解决方法的具体做法

  1. 构建基准:收集609个机器人操作视频,人工标注关键点和指令。
  2. 多维打分
    • 视觉质量:用PSNR, FVD等指标。
    • 指令理解:用GPT-4o判断视频是否符合文字指令。
    • 物理法则:用微调过的Qwen-2.5-VL模型打分,检查物理常识(如重力、碰撞)。
    • 规划推理:用有向无环图(DAG)对比模型生成的动作顺序是否正确。
  3. 双重图灵测试
    • 人类测试:让人分辨真假视频,计算欺骗成功率。
    • 机器测试(IDM):用训练好的逆动力学模型去“解读”生成的视频,看能否输出真实机器人能执行的控制指令。

基于前人的哪些方法

  1. 数据处理:参考了RoboBench的规划评估指标(DAG方法)。
  2. 物理评估:基于VideoPhy等物理常识评估思路,但进行了扩展。
  3. 执行测试:基于WoW论文中的 Gripper-Centric Inverse Dynamics Model (GC-IDM) 来验证真实世界的成功率。

实验设置、数据、评估方式、结论

  1. 实验设置:评估了闭源模型(Kling, Hailuo)和开源模型(CogVideoX, Wan2.1, Cosmos-Predict系列)以及具身世界模型(WoW系列)。
  2. 数据:609个机器人操作样本,包含In-Distribution和Out-of-Distribution数据。
  3. 评估方式:22项指标综合打分,以及人类和IDM图灵测试。
  4. 结论
    • 商业模型(如Hailuo)在视觉和指令理解上较好,但物理规划弱。
    • 规划是当前所有模型的瓶颈,得分普遍极低。
    • 大多数模型在IDM图灵测试中失败(成功率接近0%),说明生成的视频虽然好看但“做不了”。
    • WoW-cosmos2在开源模型中表现最好,但在真实执行上仍有巨大差距。

提到的同类工作

  1. Physics-10 / PhyGenBench:侧重物理诊断,但缺乏规划和执行评估。
  2. T2V-CompBench / VBench-2.0:侧重通用视频生成的组成性和物理常识,非机器人具身场景。
  3. WorldModelBench / EWMBench:虽然评估世界模型,但未涵盖规划和执行维度。

和本文相关性最高的3个文献

  1. **RoboBench **:本文直接引用其规划评估指标(DAG),是本文评估逻辑推理的核心基础。
  2. **WoW **:本文提出的IDM图灵测试直接基于该论文的GC-IDM模型,且WoW系列模型是本文的核心被评测对象之一。
  3. **VideoPhy **:本文在物理常识评估部分直接引用了该工作的指标设计,是本文物理评估维度的重要参考。

我的

  1. 相比一般的video generation benchmark,加了一个planning和Execution的评测。planning:用MLLM拆分多个阶段,然后比。这种还是有缺陷,比如系鞋带、叠衣服等难拆分的任务没法评。
  2. execution:用生成video,Inverse dynamic model得到action,然后执行。自己训的IDM。在真机上执行,没说几个真机。有多个任务。可信度存疑。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 9:49:20

2026年人工智能十大趋势,大模型开发者必看

《2026年人工智能十大趋势》报告由中央广播电视总台联合多家权威机构发布,指出2026年是AI从实验室走向产业落地的"质变节点"。报告从全球治理、终端应用、技术纵深、安全可持续等多个维度全面勾勒AI发展蓝图,预示一场贯穿生产生活、跨越技术边…

作者头像 李华
网站建设 2026/3/30 22:38:19

面向对象软件的集成测试策略由于面向对象软件中类之间通过消息传递协作,缺乏传统自顶向下或自底向上的控制流结构

一、面向对象软件的集成测试策略 由于面向对象软件中类之间通过消息传递协作,缺乏传统自顶向下或自底向上的控制流结构,因此集成测试需采用更适合其特性的策略:基于线程的测试(Thread-Based Testing) 将系统中响应某一…

作者头像 李华
网站建设 2026/4/23 9:50:11

运维工程师 35 岁危机来袭,为什么转网安正逢黄金窗口期?

前言 很多从事IT网络运维工作的年轻小伙伴都会有个疑问,自己做的工作很杂似乎很基础,而且重复很多年,究竟有没前途。 作为过来人告诉一个总结:前途大小,工资多少跟你的岗位和职称资质没有多少关系,跟你的…

作者头像 李华
网站建设 2026/4/23 15:24:00

2026 SRC 漏洞挖掘最新宝典:覆盖常见攻击手段,精通高危漏洞挖掘

SRC漏洞(Security Response Center Vulnerability),指在安全应急响应中心框架下公开披露的系统安全缺陷。想象一位数字空间的猎人,持续追踪系统防线中的薄弱环节。 01、SRC漏洞是什么? SRC漏洞指企业安全应急响应中心…

作者头像 李华