news 2026/6/26 4:21:05

[论文分享]H2HMem:当AI开始“偷听人类对话”,我们才发现它的记忆远没有想象中可靠——一个面向多模态人类交互的记忆评测基准

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
[论文分享]H2HMem:当AI开始“偷听人类对话”,我们才发现它的记忆远没有想象中可靠——一个面向多模态人类交互的记忆评测基准

H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions

📄 Paper • 🤗 Dataset • 🏆 Leaderboard • 🌐 Project Page • 💻 Code

如果您对我们的工作感兴趣,希望您能为我们的Github仓库点一个star,以便更多的人关注到我们的工作。同时欢迎您将您的方法提交到Leaderboard上面。

🧩 一、为什么要做这个工作?

随着大模型逐渐进入真实应用场景(会议助手、医疗记录、智能助理等),一个关键问题开始变得重要:

AI在“长时间、多人物、多模态”的真实对话中,到底能不能可靠地记住信息?

但现有评测普遍存在一个问题:

  • 只关注人类 ↔ AI 对话
  • 大多是纯文本
  • 交互结构单一

但目前agent的应用已经扩展到了新的场景,agent在人与人的对话中作为观察者。

​​

这种状况下的难点在于:

  • 多人同时参与(A/B/C/D)
  • 图片 + 文本混合出现
  • 信息甚至可能互相冲突

因此,我们提出了一个新的benchmark:

🧪 H2HMem


🌍 二、H2HMem到底解决什么问题?

H2HMem专门模拟一种更真实的设定:

AI作为“观察者”,被动记录人类之间的对话,并在之后回答问题。

它包含三个核心特点:

  • 🧑‍🤝‍🧑 多人对话(dyadic + multi-party)
  • 🖼️ 多模态信息(图像 + 文本)
  • ⏳ 长时序多session交互

简单说就是:

不再是“你和AI聊天”,而是“AI在旁边听你们聊天”。


🏗️ 三、我们是怎么构建这个数据集的?

整体采用human-in-the-loop + LLM生成 pipeline

  • ① 先构建人物设定(性格/背景/职业/说话方式)
  • ② 再生成多session场景(旅游、医疗、宠物等)
  • ③ 引入图像(检索 + 生成 + 人工修正)
  • ④ 用LLM生成完整多人物对话
  • ⑤ 自动生成 + 人工校验QA任务

整个过程确保:

对话是连续的、图文是对齐的、人物关系是稳定的


🧪 四、我们如何评估“记忆能力”?

我们将memory能力拆成三大类:

1️⃣ Memory Recall(记住发生了什么)

包括:

  • 单模态事实回忆(UPR)
  • 图文对齐检索(CRR)
  • 多session信息更新(KR)

2️⃣ Memory Reasoning(理解发生了什么)

包括:

  • 时间顺序推理(TR)
  • 因果推理(MCR)
  • 指代与人物关系追踪(RET)

3️⃣ Memory Application(如何用记忆)

包括:

  • 测试时学习(TTL)
  • 冲突检测(CD)
  • 信息缺失时拒答(AR)

📊 五、实验结果

我们在多种主流方法(RAG / multimodal memory / agent memory)上进行了测试。

整体结果呈现出一个比较一致的趋势:

当前模型在“检索信息”方面表现尚可,但在“组织和理解记忆”方面仍然明显不足。

更具体来说:


🧠 1. 跨模态对齐仍然是主要瓶颈

模型可以找到信息,但经常无法正确对齐:

  • 文本 ↔ 图像关系
  • 图像属于哪个说话人
  • 图像对应哪个事件

🧑‍🤝‍🧑 2. 多人对话引入明显混淆

在multi-party场景中:

  • speaker attribution错误增加
  • 人物关系容易混乱
  • 冲突信息难以区分

⏳ 3. 时间与因果推理能力较弱

尤其在:

  • 事件顺序
  • 多session更新
  • 逻辑因果关系

这些任务上表现明显下降


💡 六、一个更本质的发现

如果从整体来看,我们可以总结一个核心现象:

当前大模型的“记忆”更像是信息检索,而不是结构化理解。

它们可以:

  • 找到相关片段
  • 回忆局部事实

但难以做到:

  • 将多模态信息对齐
  • 在多人之间正确归属信息
  • 在时间维度上保持一致性
  • 处理冲突信息

🚀 七、H2HMem的意义

H2HMem的目标不仅仅是一个benchmark,而是希望推动:

下一代memory agent从“记忆检索系统”走向“结构化认知系统”

未来的AI如果要真正进入真实世界,需要具备:

  • 多人交互理解能力
  • 多模态长期记忆能力
  • 跨时间一致性建模能力

📌 总结

H2HMem揭示了一个很关键的现实:

记住信息并不难,但在复杂人类交互中“正确理解并使用记忆”仍然非常困难。

八、资源

TypeLink
📄Paperhttps://arxiv.org/abs/2606.09461v1
💻Codehttps://github.com/varib1/H2HMEM
🏆Leaderboardhttps://h2hmemleaderboard1.vercel.app/
🤗Datasethttps://huggingface.co/datasets/varib/H2HMEM
🌐Project Pagehttps://h2hmemprojectpage.vercel.app/

我们在此处提供了我们论文相关的资源。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/26 4:20:24

mysql 安装包 5.7 8.0

我用夸克网盘给你分享了「mysql」,点击链接或复制整段内容,打开「夸克APP」即可获取。 /~9c4c3ZE819~:/ 链接:https://pan.quark.cn/s/7fe04833c1e2

作者头像 李华
网站建设 2026/6/26 4:17:56

如何快速上手Sherlock:3个核心功能让自然语言事件解析变简单

如何快速上手Sherlock:3个核心功能让自然语言事件解析变简单 【免费下载链接】Sherlock Natural-language event parser for Javascript 项目地址: https://gitcode.com/gh_mirrors/sherlock4/Sherlock Sherlock是一款功能强大的JavaScript自然语言事件解析器…

作者头像 李华
网站建设 2026/6/26 4:16:43

MDM.Plus:更适合中国手机租赁行业的设备监管系统

在全球设备管理市场中,Jamf、Kandji、Microsoft Intune、Samsung Knox Guard、Google Device Lock Controller、PayJoy、NuovoPay、Trustonic 等国际方案,都在各自领域形成了成熟能力。 但对于中国大陆的手机租赁行业来说,真正的问题并不是“…

作者头像 李华
网站建设 2026/6/26 4:16:39

ASMRoner:3步搭建个人ASMR音声资源库的终极指南

ASMRoner:3步搭建个人ASMR音声资源库的终极指南 【免费下载链接】asmr-downloader A tool for download asmr media from asmr.one(Thanks for the asmr.one) 项目地址: https://gitcode.com/gh_mirrors/as/asmr-downloader 你是否曾经为了寻找一首心仪的ASM…

作者头像 李华
网站建设 2026/6/26 4:13:14

甲骨文系列经典书单研究报告 精选100部经典

SOCIAL SCIENCES ACADEMIC PRESS ORACODE甲骨文系列经典书单研究报告社会科学文献出版社 甲骨文(oracode)出版品牌 译介世界人文社科精品 2013年至今 精选100部经典研究报告 编制日期 2026.06摘要:本报告系统梳理社会科学文献出版社旗下…

作者头像 李华