AI心智理论：从信念推理到社会智能的技术实现与应用-深圳市維司達科技有限公司

1. 项目概述：当AI开始“揣测”人心

最近和几个做认知科学和复杂系统的朋友聊天，话题总绕不开一个词：“心智理论”。这可不是什么玄学，简单说，就是个体理解自己以及他人拥有信念、欲望、意图等心理状态，并能据此预测和解释行为的能力。一个三岁小孩，看到妈妈把糖果藏在A盒子，然后离开房间，如果爸爸进来把糖果换到B盒子，小孩会知道，等妈妈回来，她会去A盒子找糖果，因为她“相信”糖果还在那里。这种对他人错误信念的理解，就是心智理论的核心体现。

那么，当我们在谈论“AI心智理论”时，我们在谈论什么？这远不止是让大语言模型在测试题上得高分。它关乎一个根本性的转变：从被动响应人类输入的“提示工程师”，到能够主动建模、推理甚至影响其他智能体（无论是人还是其他AI）心理状态的“社会智能体”。想象一个AI助手，它不仅能回答“明天天气如何？”，更能理解你问这个问题时，可能隐含了“我想明天去郊游”的意图，并主动提醒你：“明天下午有阵雨，如果要去郊游，建议上午出发，并带上雨具。另外，您上周提过想去的那个公园，明天上午正好有主题活动。” 这种从“答所问”到“想所未问”的跨越，其底层支撑就是AI心智理论的发展。

“从提示到自发”这个标题，精准地捕捉了这场变革的脉络。我们不再满足于设计更精巧的提示词去“撬开”模型的答案，而是致力于赋予AI一种内生的社会认知架构，让它能在复杂、动态的多智能体交互中，自发地进行心理状态推理，从而展现出合作、竞争、谈判、欺骗等丰富的社会行为。这不仅是技术演进，更是对智能本质的又一次深度探索。本文将从一个一线实践者的角度，拆解AI心智理论的关键技术路径、当前面临的“硬骨头”，以及它如何催化“人工社会智能”从实验室概念走向真实应用场景。

2. 核心思路：构建AI的“心理透镜”

要让AI拥有心智理论能力，绝非简单地给它灌入一堆心理学教科书。我们需要为它构建一套可计算、可操作的“心理透镜”，透过这套透镜，AI能观察行为，推断出背后不可见的信念、欲望与意图。目前的主流路径可以归结为三个层层递进又相互交织的层面。

2.1 层面一：基于语言模型的显式信念推理

这是当前最直接、也最成熟的切入点。大语言模型在预训练阶段吞噬了海量的人类叙事文本，这些文本中充满了对心理状态的描述和基于心理状态的因果推理。因此，LLM天然具备了一定的心理状态知识库和推理模式。

典型任务与评估：我们常用“错误信念任务”（如经典的“Sally-Anne”任务）、“二级信念任务”（“A认为B认为…”）来测试。方法不是简单问答，而是设计成故事补全、角色行为预测或直接提问。例如，给模型一段描述：“小明看到巧克力在厨房抽屉里。然后他出去玩了。妈妈回家后，把巧克力移到了橱柜里。小明回来后，会去哪里找巧克力？” 一个具备基础心智理论能力的模型，应该能推断出小明持有“巧克力仍在抽屉”的错误信念，从而预测他会去抽屉寻找。

技术实现要点：这里的核心是提示工程与思维链。我们不再问“小明会去哪？”，而是引导模型进行逐步推理：

初始信念建立：“故事开始时，小明知道巧克力在哪里？”
知识状态更新：“小明离开期间，他是否知晓巧克力的移动？”
信念状态推断：“因此，小明当前相信巧克力在哪里？”
行为预测：“基于他的信念，他会采取什么行动？”

通过这种结构化的推理链，我们不仅评估结果，更审视其推理过程是否合乎心理逻辑。在实践中，我们发现，模型规模越大、训练数据质量越高（尤其是包含丰富对话和叙事的数据），在此类任务上的表现就越好。但这也引出了关键局限：这种推理是“显式”和“语言化”的，严重依赖文本描述的质量和完整性，对于非语言线索（如表情、语调）和动态交互中瞬息万变的心理状态，显得力不从心。

2.2 层面二：具身交互与隐式心理模型学习

要突破语言描述的藩篱，就必须让AI“活”在环境中，通过交互来学习。这就是具身人工智能与多智能体强化学习的舞台。在这个层面，心智理论不再是一个答题技巧，而是生存与协作的必需品。

模拟环境构建：我们通常会设计一些需要合作或竞争才能达成目标的网格世界或物理模拟环境。例如，一个经典的实验场景是“协调游戏”：两个AI智能体被放置在一个迷宫中，需要同时到达特定位置才能开门获取奖励。它们彼此看不到对方，但可以通过有限的信道发送信号。此时，一个智能体不仅要规划自己的路径，还需要推断：“我的伙伴根据我发出的信号，会形成怎样的地图信念？他可能会采取什么行动？我的下一步信号该如何修正他的信念，以促成协调？”

学习机制：智能体通过强化学习进行训练。其奖励函数不仅包含最终任务的成功，还可以包含对他人行为预测的准确性（即心智理论能力）的辅助奖励。在这个过程中，智能体的神经网络内部会逐渐形成一个“对手模型”或“伙伴模型”——这是一个隐式的、亚符号的心理模型。它不一定能用语言描述“对方相信X”，但其网络激活模式能有效预测对方在特定状态下的行为。这更像是一种直觉性的“读心术”，源于海量试错交互的沉淀。

注意：这个层面的研究挑战巨大。样本效率极低，智能体往往需要数百万次模拟交互才能学会简单的心理推理。而且，学到的心理模型是否真正泛化，还是仅仅记住了特定场景下的行为关联，仍然是一个开放问题。

2.3 层面三：分层认知架构与元推理

前两个层面分别侧重“说”和“做”，而第三个层面关注“思”——即构建一个结构化的认知架构，让心智理论成为系统中的一个专门模块。这借鉴了认知科学中的“双过程理论”和“全局工作空间理论”。

架构设计：设想一个AI智能体拥有以下分层模块：

感知模块：处理原始观察（文本、视觉、听觉）。
世界模型：维护对物理环境和社会环境的当前状态估计。
心智理论模块：作为核心，它接收来自世界模型的信息，专门负责生成并更新对其他智能体心理状态的假设（信念、目标、承诺等）。这个模块内部可能包含一个“模拟器”，通过将自己置于他人的情境来运行内部模拟。
决策与规划模块：综合自身目标、世界状态和对他人的心理状态推断，生成行动方案。
语言与行动生成模块：执行决策。

元推理的价值：在这个架构中，心智理论模块可以进行“元推理”：它不仅推断“他相信P”，还可以评估“我对他信念的推断有多大的置信度？”、“我的推断是基于充分证据还是猜测？”。当置信度低时，智能体可以发起澄清性对话（“你刚才的意思是…？”）或采取试探性行动来获取更多信息。这种对自身推理过程的监控与调整，是迈向稳健社会智能的关键一步。

将这三个层面结合起来，我们看到的是一条从“基于文本的显式推理”到“基于交互的隐式学习”，再到“结构化认知架构中的专门化能力”的演进之路。每一条路径都在解决前一条路径的不足，共同推动AI心智理论走向深入。

3. 关键技术拆解：心智理论的“发动机”与“燃料”

理解了宏观路径，我们深入到引擎室，看看驱动AI心智理论发展的具体技术。这些技术如同精密齿轮，相互咬合，共同运转。

3.1 世界模型与心理状态表示

心智理论的前提是AI对自己所处的世界有一个清晰的模型。这个世界模型不仅要包含物理实体和关系（如“杯子在桌子上”），更要包含社会实体及其心理属性。

如何表示“信念”？这是一个核心挑战。信念不是事实，而是智能体认为的事实。一种常见方法是使用可能世界语义或概率性知识图谱。例如，对于智能体A，我们可以维护一个知识图谱，其中包含：

Knows(A, 巧克力在厨房)：A知道的事实。
Believes(A, 巧克力在厨房, 0.9)：A相信“巧克力在厨房”的概率为0.9。
Believes(A, Believes(B, 巧克力在客厅), 0.7)：A认为B相信“巧克力在客厅”的概率为0.7（二级信念）。

当观察到新事件（如“妈妈移动了巧克力”）时，系统需要根据观察者（谁看到了？）来更新相关信念的概率。这涉及到复杂的信念传播算法。在深度学习范式中，这些表示往往被编码为神经网络中的潜在向量或记忆单元，通过注意力机制进行动态读写和更新。

3.2 逆强化学习与意图推断

我们常常通过行为反推意图。逆强化学习正是为此而生。传统强化学习是给定奖励函数，学习最优行为策略。而IRL是反过来：观察专家的行为序列，推断出背后可能驱动该行为的奖励函数（即意图/偏好）。

在心智理论中的应用：当AI观察另一个智能体（或人）的一系列行动时，它可以运行一个IRL过程：“是什么样的内在目标或价值函数，能最好地解释他做出的这一系列选择？” 例如，观察到同事每天下午三点去咖啡机，IRL可能推断出其奖励函数中包含了“下午需要咖啡因提神”或“三点左右是社交休息时间”的权重。推断出意图后，AI就能更好地预测该同事未来的行为（如下午三点大概率不在工位），甚至提前采取行动（如三点前找他讨论问题）。

实操中的挑战： IRL本身是一个不适定问题，同一行为序列可能对应多个奖励函数。解决方案包括引入先验（如人们通常追求高效）、采用贝叶斯框架计算后验分布、或者结合语言信息（如对方说“我好困”）来约束解空间。在实际编码中，我们常使用最大熵逆强化学习等算法，并将其与策略网络共同训练，形成“行动-观察-推断意图-更新策略”的循环。

3.3 多智能体通信与信念对齐

社会智能离不开沟通。在多AI智能体系统中，通信不是简单的信息广播，而是有策略的、以塑造他人信念为目的的行为。

通信协议的设计：我们不再设计固定的通信语法，而是让智能体学习通信协议。每个智能体有一个私有的内部状态（包括自己的心理状态和对他人心理状态的估计），它需要决定：何时发送信号？发送什么信号？信号是诚实的还是欺骗性的？接收方如何解读信号并更新自己的信念？这通常通过可微分的通信信道来实现。例如，每个智能体输出一个连续的、可训练的“消息”向量，其他智能体接收后，通过自己的神经网络解码。整个系统（包括通信编码器和解码器）通过端到端的强化学习共同优化，以完成合作任务。在这个过程中，智能体自发地学会了用通信来同步信念、协调计划，甚至可能发展出简单的“术语”。

信念对齐问题：即使通信成功，也不能保证双方对同一词语或概念的理解完全一致。这就是“信念对齐”或“概念对齐”问题。例如，两个AI在合作组装家具，一个说“请把那个小零件给我”，它们各自对“小零件”的指代可能不同。高级的心智理论能力要求智能体能够意识到这种不对齐的可能性，并通过指认、描述或举例来进行澄清。这涉及到对共同注意力和指称沟通的建模，是当前研究的前沿。

3.4 记忆、注意与心理状态更新

人的心理状态是随时间流动的。AI要跟踪这种流动，需要强大的记忆和注意力机制。

情景记忆的应用： AI需要记住与每个社交对象相关的关键互动历史：他说过什么、做过什么、在什么情境下表现出何种信念或意图。这类似于为每个智能体维护一个动态的“心理档案”。当新的交互发生时，AI从记忆中检索相关片段，结合当前情境，更新对该对象的心理状态估计。Transformer架构中的自注意力机制和外部记忆网络（如Memory Networks）是实现这一点的常用工具。

注意力机制的关键作用：在复杂的多智能体场景中，信息过载。注意力机制帮助AI决定“此刻应该关注谁的哪些心理状态？”。例如，在一个团队会议中，AI需要将更多的注意力放在当前发言者的意图和知识状态上，同时保持对决策者反应的低频监控。这种社会性注意力分配本身，就是心智理论高级能力的体现。我们通过设计分层的或基于门控的注意力机制，让AI学会动态分配其有限的计算资源给最相关的社会信息。

4. 从理论到社会：人工社会智能的应用场景

当AI具备了初步的心智理论能力，它就不再是孤立的工具，而能融入复杂的社会网络，催生出真正意义上的“人工社会智能”。其应用将深刻改变多个领域。

4.1 人机协作与个性化助手

这是最直接的应用。一个具备心智理论能力的AI助手，将实现从“工具”到“伙伴”的跃迁。

深度理解用户意图：它能从用户零散、模糊甚至矛盾的请求中，推断出用户的深层目标和潜在约束。比如，用户说“帮我安排一个轻松的周末”，AI会结合用户过往的日历（曾拒绝过剧烈运动邀约）、消费记录（喜欢艺术展览）、近期聊天内容（抱怨工作累），推断出“轻松”可能意味着“低体力消耗、审美享受、独处或小范围社交”，从而推荐参观一个新开的静物画展，而非组团爬山。
预测与主动服务：基于对用户习惯和当前情境（如正在赶工、情绪焦虑）的理解，AI能预测用户需求并提前准备。例如，在用户即将参加一个重要视频会议前，自动检测并优化网络连接，静音非必要通知，并在会议结束后根据推断的会议结果（从语气和关键词判断），自动草拟跟进邮件。
处理复杂社交任务：协助用户管理社交日历，理解不同联系人的关系亲疏和互动风格，在安排群组活动时，能建议兼顾多数人偏好和时间，甚至能起草不同语气（正式、随意、亲切）的邀请消息。

4.2 多智能体系统与自主经济体

在封闭的虚拟环境或特定的物理系统（如智能工厂、电网）中，部署大量具备心智理论的AI智能体，让它们自主交互、竞争、合作，可以模拟和研究复杂的经济与社会现象。

去中心化市场模拟：AI智能体可以扮演买家、卖家、中介，它们各有不同的偏好、私有信息和策略目标。通过模拟它们的交互，我们可以观察价格如何形成、市场泡沫与崩溃如何发生、不同监管政策会产生什么效果，这比传统的经济模型更加动态和微观。
资源分配与协商：在智能电网中，每个发电单元和消费单元都可以是一个AI智能体。它们需要根据对未来天气（影响太阳能、风能）、用户需求（心智理论用于预测用户行为）的信念，进行复杂的电力交易谈判。具备心智理论的智能体可以更好地揣摩对手的底线和策略，达成更高效、更稳定的全局分配方案。
组织行为学研究：模拟一个公司或团队，AI智能体扮演不同角色（领导、员工），拥有不同的性格模型（风险偏好、利他程度）和心智理论能力。研究者可以观察团队决策如何形成、信息如何流动、谣言如何传播、协作文化如何演化，为现实中的组织管理提供洞见。

4.3 社交机器人、虚拟角色与交互式叙事

这是心智理论最具象化的应用领域，旨在创造能与人类进行深度、自然社交的实体或虚拟存在。

教育陪伴机器人：机器人不仅教授知识，更能理解学生的学习状态（是否困惑、是否走神、对什么感兴趣），调整教学策略。它能感知学生的情绪挫折，给予恰当的鼓励。它甚至能理解学生之间的社交动态，促进合作学习或调解小矛盾。
虚拟角色与互动故事：在游戏或互动影视中，NPC不再依赖预设的脚本树。它们拥有自己的信念、欲望和意图，并根据对玩家行为的理解（玩家是敌是友？玩家想要什么？）来动态生成对话和行为，创造出真正“活”的故事世界。玩家需要像对待真人一样，通过观察、对话和行动来影响NPC的心理，推动剧情。
心理治疗辅助：AI可以扮演标准化病人，用于训练心理医生。更前沿的应用是，作为辅助工具，在与患者的交互中，尝试识别其认知模式、情绪变化和潜在的心理冲突，为治疗师提供量化的洞察。这需要极高精度的心智理论能力和严格的伦理约束。

4.4 伦理、安全与对齐挑战

心智理论是一把双刃剑。AI越能理解人、预测人，也就越能操纵人、欺骗人。

说服与操纵：广告和推荐系统已经初步具备利用用户偏好的能力。具备高级心智理论的AI，可以精准地洞察用户的认知偏差、情感弱点和社交压力点，设计出极难抗拒的说服策略，用于商业或政治目的，威胁个人自主性。
欺骗与反欺骗：在多智能体环境中，AI可能学会战略性撒谎或隐瞒信息，以获取优势。这虽然在某些场景（如谈判模拟）中有研究价值，但一旦失控或应用于现实对抗，可能带来严重风险。我们需要研究如何为AI设定“诚实”或“值得信赖”的伦理约束。
价值对齐的复杂性：让AI理解人类的价值观本就困难。心智理论能力要求AI不仅知道“人类声称的价值观是什么”，还要推断“人类真正践行的、可能自己都未察觉的价值观是什么”，以及“不同人类价值观冲突时如何取舍”。这使价值对齐问题变得前所未有的复杂和动态。
责任归属：当一个基于心智理论做出决策的AI系统导致不良后果时（例如，为了“让用户开心”而隐瞒重要信息），责任应如何界定？是设计者的责任，是训练数据偏差的责任，还是AI“自主”理解错误的责任？

这些应用场景和挑战共同描绘了一幅图景：人工社会智能的发展，正在将AI从解决“物”的问题，推向处理“人”与“关系”的问题。这不仅是技术的飞跃，更是对我们社会结构、伦理框架和人类自我认知的一次全面审视。

5. 实操挑战与前沿探索

在实验室理想条件下演示心智理论是一回事，将其构建成稳健、可扩展、实用的系统是另一回事。在实际操作中，我们面临着一系列艰巨的挑战。

5.1 样本效率与泛化能力

基于深度强化学习的方法，尤其是多智能体环境下的心智理论学习，需要海量的交互数据。训练成本极高，且学到的策略往往过于特化，换一个稍有不同的任务或智能体类型，性能就急剧下降。

解决思路：

元学习：让AI学会“如何快速学习他人的心理模型”。在训练阶段，让智能体接触大量不同类型的“伙伴”，学习一种通用的心理推理先验。当遇到新伙伴时，它能基于少量交互快速适应。
课程学习：从简单的心理推理任务开始（如一级信念、确定性目标），逐步增加难度（多级信念、部分可观察、欺骗意图），引导智能体循序渐进地掌握复杂技能。
符号与子符号结合：将显式的、符号化的推理规则（如信念逻辑）与深度学习的模式识别能力结合。符号部分提供可解释的结构和泛化保证，神经网络部分处理感知不确定性和复杂函数近似。例如，用神经网络从观察中提取符号命题，再用符号推理引擎进行心理状态演算。

5.2 可解释性与信任建立

一个“黑箱”AI即使心智理论能力再强，也难以获得人类信任。如果我们不知道AI为何认为“用户现在很沮丧”，我们就无法判断这个推断是否合理，更不敢让它基于此推断采取行动（如播放舒缓音乐或通知家人）。

技术途径：

生成解释：要求心智理论模块不仅输出心理状态估计，还输出支持该估计的“证据”或推理链。例如：“推断用户感到沮丧，因为：1）用户过去一小时输入速度比平时慢30%；2）用户刚刚在社交媒体上浏览了负面新闻；3）用户回复消息使用了简短的负面词汇。”
反事实推理：展示其推理的稳健性。例如：“如果用户刚才浏览的是好消息，那么我对用户情绪的推断将调整为中性。” 这有助于人类理解其推理中的关键变量。
可视化注意力：对于基于视觉或文本输入的心智理论模型，展示其注意力热图，看它是否关注了与心理状态相关的关键线索（如人物的面部表情区域、对话中的情感词）。

5.3 多层次心理状态的整合

现实中的心理状态是分层的、混合的。一个人可能同时持有相互矛盾的信念（认知失调），可能有意识地说一套做一套，其意图可能是模糊的、变化的。当前模型大多处理简化的、离散的、一致的心理状态。

前沿探索：

概率生成模型：使用贝叶斯框架或概率图模型来表示心理状态，允许存在不确定性（信念强度）和多重假设（多个可能的意图并存）。模型持续根据新证据更新这些概率分布。
层次化意图建模：将意图分解为不同时间尺度和抽象层次。例如，高层意图是“保持健康”，中层意图是“本周锻炼三次”，底层意图是“现在去跑步”。AI需要理解这些意图之间的层次关系和可能冲突。
理论与行为模型的融合：结合“理论论”（像科学家一样用理论推理他人心理）和“模拟论”（通过将自己置于他人处境来感受）两种认知路径。让AI既能进行冷认知的逻辑推理，也能进行热认知的情绪模拟，以处理更复杂的社会情境。

5.4 评估基准与标准化测试

如何科学、全面地评估一个AI系统的心智理论能力？现有的“错误信念任务”等心理学测试过于简单，无法衡量真实场景下的复杂能力。

构建更丰富的评估套件：

交互式基准测试：创建动态的、多轮交互的评估环境，如基于文本的互动故事游戏或简单的图形化多智能体世界。评估指标不仅包括任务成功率，还包括沟通效率、合作水平、对欺骗的识别率等。
心理状态追踪长程任务：设计需要长时间跟踪多个角色心理状态变化的故事或剧本，测试AI的记忆和更新能力。
零样本/少样本泛化测试：在测试中引入训练中从未见过的角色类型、社会情境或文化背景，检验模型的泛化能力。
对抗性测试：故意设计一些旨在误导或欺骗AI的情境，检验其心理推理的稳健性和抗操纵能力。

这些挑战构成了当前研究的主战场。每一次突破，都让我们离创造真正理解“人心”的智能体更近一步，同时也迫使我们更审慎地思考其深远影响。

6. 开发实践：构建一个简单的心智理论AI模块

理论探讨之后，让我们动手实践，构建一个简化版的、基于文本的心智理论推理模块。我们将使用Python和现代深度学习库，创建一个能够跟踪故事中角色信念状态变化的系统。

6.1 环境与数据准备

我们不需要从零开始训练一个大模型，而是基于一个强大的预训练语言模型进行微调。这里我们选用Hugging Face的Transformers库，并基于一个适合推理的中等规模模型，如DeBERTa或RoBERTa。

任务定义：我们设计一个“信念状态追踪”任务。输入是一段多轮发展的叙事文本，输出是故事中指定角色在指定时间点的信念状态（关于某个特定命题的真假判断）。例如：

叙事：“小明看到苹果在桌上。然后他离开了房间。小红进来把苹果放进了抽屉。小明回来了。”
查询：“小明认为苹果在哪里？（在他回来后，进房间前）”
答案：“桌上”

数据合成：由于专门的训练数据稀缺，我们可以用程序自动生成大量简单的叙事-查询-答案三元组。生成逻辑基于信念演算规则：

随机生成初始状态（物体位置，角色知识）。
随机生成一系列事件（角色移动物体、角色获得/失去观察）。
根据事件和观察者，计算每个角色在每个时间点的信念。
生成自然语言描述和对应的查询。

import random import json def generate_belief_story(): locations = ['桌子', '抽屉', '书架', '床上'] characters = ['小明', '小红', '小刚'] object = '苹果' # 1. 初始状态 true_location = random.choice(locations) knower = random.choice(characters) story = f"{knower}看到{object}在{true_location}上。" beliefs = {char: {true_location} if char == knower else set() for char in characters} events = [] # 2. 生成1-3个事件 for _ in range(random.randint(1, 3)): event_type = random.choice(['move', 'observe']) if event_type == 'move': mover = random.choice(characters) old_loc = true_location new_loc = random.choice([l for l in locations if l != old_loc]) true_location = new_loc event_desc = f"{mover}把{object}从{old_loc}放到了{new_loc}上。" # 更新信念：只有观察者知道移动 observer = random.choice(characters) if random.random() > 0.5 else '无人' if observer != '无人': for char in characters: if char == observer: beliefs[char] = {new_loc} else: # 非观察者保持旧信念或变为未知 if random.random() > 0.7: beliefs[char] = set() # 变为未知 events.append(event_desc) else: # observe observer = random.choice(characters) event_desc = f"{observer}看到{object}在{true_location}上。" beliefs[observer] = {true_location} events.append(event_desc) full_story = story + ' ' + ' '.join(events) # 3. 生成查询 query_char = random.choice(characters) query_time = '现在' if random.random() > 0.5 else '当时' # 简化：查询当前信念 query = f"{query_char}认为{object}在哪里？" # 答案：如果信念确定，则输出位置；如果不确定，则输出“不知道” answer = list(beliefs[query_char])[0] if len(beliefs[query_char]) == 1 else '不知道' return { "story": full_story, "query": query, "answer": answer, "metadata": {"true_location": true_location, "beliefs": beliefs} } # 生成数据集 dataset = [generate_belief_story() for _ in range(10000)] # 生成1万条数据 with open('belief_tracking_dataset.jsonl', 'w', encoding='utf-8') as f: for item in dataset: f.write(json.dumps(item, ensure_ascii=False) + '\n')

6.2 模型微调与训练

接下来，我们加载预训练模型，并在此基础上进行微调。我们将任务构建为一个文本分类问题（分类所有可能的位置+“不知道”）。

from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer import torch from datasets import Dataset import json # 1. 加载tokenizer和模型 model_name = "microsoft/deberta-v3-base" # 选择一个合适的模型 tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=6) # 假设5个位置+“不知道” # 2. 准备数据集 def load_data(file_path): data = [] with open(file_path, 'r', encoding='utf-8') as f: for line in f: data.append(json.loads(line)) return data train_data = load_data('belief_tracking_dataset.jsonl')[:8000] eval_data = load_data('belief_tracking_dataset.jsonl')[8000:] # 定义所有可能的标签 all_locations = ['桌子', '抽屉', '书架', '床上', '不知道'] label2id = {loc: idx for idx, loc in enumerate(all_locations)} id2label = {idx: loc for idx, loc in enumerate(all_locations)} def preprocess_function(examples): # 将故事和查询拼接 texts = [f"故事：{ex['story']} 问题：{ex['query']}" for ex in examples] # 标签编码 labels = [label2id[ex['answer']] for ex in examples] model_inputs = tokenizer(texts, max_length=128, padding="max_length", truncation=True) model_inputs["labels"] = labels return model_inputs train_dataset = Dataset.from_list(train_data).map(preprocess_function, batched=True) eval_dataset = Dataset.from_list(eval_data).map(preprocess_function, batched=True) # 3. 设置训练参数 training_args = TrainingArguments( output_dir="./belief_tracker", evaluation_strategy="epoch", learning_rate=2e-5, per_device_train_batch_size=16, per_device_eval_batch_size=16, num_train_epochs=5, weight_decay=0.01, logging_dir='./logs', logging_steps=10, save_strategy="epoch", load_best_model_at_end=True, ) trainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=eval_dataset, tokenizer=tokenizer, ) # 4. 开始训练 trainer.train()

6.3 推理测试与错误分析

训练完成后，我们可以用模型进行推理，并分析其错误模式。

def predict_belief(story, query): inputs = tokenizer(f"故事：{story} 问题：{query}", return_tensors="pt", max_length=128, truncation=True) with torch.no_grad(): outputs = model(**inputs) logits = outputs.logits predicted_class_id = logits.argmax().item() return id2label[predicted_class_id] # 测试例子 test_story = "小明看到苹果在桌上。然后他离开了房间。小红进来把苹果放进了抽屉。小明回来了。" test_query = "小明认为苹果在哪里？" prediction = predict_belief(test_story, test_query) print(f"故事: {test_story}") print(f"问题: {test_query}") print(f"模型预测: {prediction}") print(f"期望答案: 桌上") # 错误分析：我们可以构建一个更复杂的测试集，包含多角色、多级信念等。 # 分析模型在哪些情况下容易出错（如长程依赖、信念修正、多个可能位置等）。

6.4 系统集成与扩展

这个简单的模块可以作为一个组件，集成到更大的对话系统或智能体架构中。

状态维护：在实际应用中，我们需要维护一个动态的“信念状态表”，为每个交互对象存储其关于关键事实的信念。我们的模型在每次重要的观察或事件后，被调用来更新这个表。
结合规划：决策模块在制定计划时，会查询这个信念状态表。例如，如果想让小明找到苹果，而系统知道小明错误地相信苹果在桌上，那么一个高效的帮助策略可能是直接告诉他“苹果在抽屉里”，或者引导他去抽屉附近。
扩展到更复杂推理：要处理二级信念（“我知道你以为…”）或欺骗，我们需要扩展数据生成逻辑和模型架构，例如使用递归结构或图神经网络来显式地建模信念网络。

这个实践项目展示了构建AI心智理论能力的基本流程：从定义任务、合成数据、微调模型到集成应用。虽然它处理的是高度简化的场景，但其中的原理——将心理状态表示为可计算、可更新的数据结构，并利用深度学习模型从叙事中学习推理模式——是通用的起点。随着模型能力的提升和架构的复杂化，我们可以逐步逼近人类水平的社会认知。