[论文分享]H2HMem：当AI开始“偷听人类对话”，我们才发现它的记忆远没有想象中可靠——一个面向多模态人类交互的记忆评测基准-深圳市維司達科技有限公司

H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions

📄 Paper • 🤗 Dataset • 🏆 Leaderboard • 🌐 Project Page • 💻 Code

如果您对我们的工作感兴趣，希望您能为我们的Github仓库点一个star，以便更多的人关注到我们的工作。同时欢迎您将您的方法提交到Leaderboard上面。

🧩 一、为什么要做这个工作？

随着大模型逐渐进入真实应用场景（会议助手、医疗记录、智能助理等），一个关键问题开始变得重要：

AI在“长时间、多人物、多模态”的真实对话中，到底能不能可靠地记住信息？

但现有评测普遍存在一个问题：

只关注人类 ↔ AI 对话
大多是纯文本
交互结构单一

但目前agent的应用已经扩展到了新的场景，agent在人与人的对话中作为观察者。

这种状况下的难点在于：

多人同时参与（A/B/C/D）
图片 + 文本混合出现
信息甚至可能互相冲突

因此，我们提出了一个新的benchmark：

🧪 H2HMem

🌍 二、H2HMem到底解决什么问题？

H2HMem专门模拟一种更真实的设定：

AI作为“观察者”，被动记录人类之间的对话，并在之后回答问题。

它包含三个核心特点：

🧑‍🤝‍🧑 多人对话（dyadic + multi-party）
🖼️ 多模态信息（图像 + 文本）
⏳ 长时序多session交互

简单说就是：

不再是“你和AI聊天”，而是“AI在旁边听你们聊天”。

🏗️ 三、我们是怎么构建这个数据集的？

整体采用human-in-the-loop + LLM生成 pipeline：

① 先构建人物设定（性格/背景/职业/说话方式）
② 再生成多session场景（旅游、医疗、宠物等）
③ 引入图像（检索 + 生成 + 人工修正）
④ 用LLM生成完整多人物对话
⑤ 自动生成 + 人工校验QA任务

整个过程确保：

对话是连续的、图文是对齐的、人物关系是稳定的

🧪 四、我们如何评估“记忆能力”？

我们将memory能力拆成三大类：

1️⃣ Memory Recall（记住发生了什么）

包括：

单模态事实回忆（UPR）
图文对齐检索（CRR）
多session信息更新（KR）

2️⃣ Memory Reasoning（理解发生了什么）

包括：

时间顺序推理（TR）
因果推理（MCR）
指代与人物关系追踪（RET）

3️⃣ Memory Application（如何用记忆）

包括：

测试时学习（TTL）
冲突检测（CD）
信息缺失时拒答（AR）

📊 五、实验结果

我们在多种主流方法（RAG / multimodal memory / agent memory）上进行了测试。

整体结果呈现出一个比较一致的趋势：

当前模型在“检索信息”方面表现尚可，但在“组织和理解记忆”方面仍然明显不足。

更具体来说：

🧠 1. 跨模态对齐仍然是主要瓶颈

模型可以找到信息，但经常无法正确对齐：

文本 ↔ 图像关系
图像属于哪个说话人
图像对应哪个事件

🧑‍🤝‍🧑 2. 多人对话引入明显混淆

在multi-party场景中：

speaker attribution错误增加
人物关系容易混乱
冲突信息难以区分

⏳ 3. 时间与因果推理能力较弱

尤其在：

事件顺序
多session更新
逻辑因果关系

这些任务上表现明显下降

💡 六、一个更本质的发现

如果从整体来看，我们可以总结一个核心现象：

当前大模型的“记忆”更像是信息检索，而不是结构化理解。

它们可以：

找到相关片段
回忆局部事实

但难以做到：

将多模态信息对齐
在多人之间正确归属信息
在时间维度上保持一致性
处理冲突信息

🚀 七、H2HMem的意义

H2HMem的目标不仅仅是一个benchmark，而是希望推动：

下一代memory agent从“记忆检索系统”走向“结构化认知系统”

未来的AI如果要真正进入真实世界，需要具备：

多人交互理解能力
多模态长期记忆能力
跨时间一致性建模能力

📌 总结

H2HMem揭示了一个很关键的现实：

记住信息并不难，但在复杂人类交互中“正确理解并使用记忆”仍然非常困难。

八、资源

Type	Link
📄Paper	https://arxiv.org/abs/2606.09461v1
💻Code	https://github.com/varib1/H2HMEM
🏆Leaderboard	https://h2hmemleaderboard1.vercel.app/
🤗Dataset	https://huggingface.co/datasets/varib/H2HMEM
🌐Project Page	https://h2hmemprojectpage.vercel.app/

我们在此处提供了我们论文相关的资源。

[论文分享]H2HMem：当AI开始“偷听人类对话”，我们才发现它的记忆远没有想象中可靠——一个面向多模态人类交互的记忆评测基准

H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions

🧩 一、为什么要做这个工作？

🧪 H2HMem

🌍 二、H2HMem到底解决什么问题？

🏗️ 三、我们是怎么构建这个数据集的？

🧪 四、我们如何评估“记忆能力”？

1️⃣ Memory Recall（记住发生了什么）

2️⃣ Memory Reasoning（理解发生了什么）

3️⃣ Memory Application（如何用记忆）

📊 五、实验结果

🧠 1. 跨模态对齐仍然是主要瓶颈

🧑‍🤝‍🧑 2. 多人对话引入明显混淆

⏳ 3. 时间与因果推理能力较弱

💡 六、一个更本质的发现

🚀 七、H2HMem的意义

📌 总结

八、资源

mysql 安装包 5.7 8.0

253.示波器x1与x10档如何选择，如何测电源纹波

如何快速上手Sherlock：3个核心功能让自然语言事件解析变简单

MDM.Plus：更适合中国手机租赁行业的设备监管系统

ASMRoner：3步搭建个人ASMR音声资源库的终极指南

甲骨文系列经典书单研究报告精选100部经典

H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions

🧩 一、为什么要做这个工作？

🧪 H2HMem

🌍 二、H2HMem到底解决什么问题？

🏗️ 三、我们是怎么构建这个数据集的？

🧪 四、我们如何评估“记忆能力”？

1️⃣ Memory Recall（记住发生了什么）

2️⃣ Memory Reasoning（理解发生了什么）

3️⃣ Memory Application（如何用记忆）

📊 五、实验结果

🧠 1. 跨模态对齐仍然是主要瓶颈

🧑‍🤝‍🧑 2. 多人对话引入明显混淆

⏳ 3. 时间与因果推理能力较弱

💡 六、一个更本质的发现

🚀 七、H2HMem的意义

📌 总结

八、资源

mysql 安装包 5.7 8.0

253.示波器x1与x10档如何选择，如何测电源纹波

如何快速上手Sherlock：3个核心功能让自然语言事件解析变简单

MDM.Plus：更适合中国手机租赁行业的设备监管系统

ASMRoner：3步搭建个人ASMR音声资源库的终极指南

甲骨文系列经典书单研究报告 精选100部经典

甲骨文系列经典书单研究报告精选100部经典