【论文笔记•（多智能体）】A Knowledge-driven Adaptive Collaboration of LLMs for Enhancing Medical Decision-making-深圳市維司達科技有限公司

【论文笔记•（多智能体）】A Knowledge-driven Adaptive Collaboration of LLMs for Enhancing Medical Decision-making

1 一句话总结

本文提出KAMAC（知识驱动的自适应多智能体协作框架），旨在解决现有大语言模型（LLMs）多智能体协作在医疗决策中存在的静态预分配角色局限，通过初始咨询、知识驱动协作讨论（动态检测知识缺口并招募专家）和最终决策三阶段，实现灵活可扩展的跨专科协作；在 MedQA 和 Progn-VQA 两大医疗基准数据集上，KAMAC 基于 GPT-4.1-mini 和 DeepSeek-R1 模型，在准确率（Acc）、精确率（Prec）等四项核心指标上显著优于单智能体和先进多智能体方法（如 MDAgents），尤其在癌症预后等复杂临床场景中表现突出，且平均专家招募数量比 MDAgents 低 53%-56%，兼具高准确性与成本效益。

2 论文基本信息

🏫单位：穆罕默德·本·扎耶德人工智能大学

🔖会议：EMNLP 2025 Main

⏰阅读时间：2025.12.14

🛤️论文地址：A Knowledge-driven Adaptive Collaboration of LLMs for Enhancing Medical Decision-making - ACL Anthology

🔠代码：XiaoXiao-Woo/KAMAC: A Knowledge-driven Adaptive Collaboration of LLMs for Enhancing Medical Decision-making

3 研究的核心问题和背景

医疗决策特性：诊断、预后等临床任务需整合多专科知识，传统依赖多学科团队（MDTs），而 LLMs 凭借强推理能力在医疗决策中展现潜力。
现有技术瓶颈：
- 单智能体：难以覆盖复杂跨专科知识；
- 多智能体协作（如 MDAgents、多数投票）：采用静态预分配角色，无法动态检测知识缺口（KG），协作易陷入孤立观点堆砌，适配性不足。
研究目标：提出自适应多智能体框架，实现专家团队动态扩展，提升医疗决策的准确性与灵活性。

4 框架及具体实现

如上图所示，框架主要包含三个阶段，总结如下表所示：

4.1 初始咨询

在此阶段，会给一个临床问题 Q，KAMAC 首先从一个预定义的专家库中招募一个或多个专家代理👨‍⚕️来执行初始查询。每个代理有不同的临床角色，这有提示词P 1 P_{1}P1设置。然后由提示词P 2 P_{2}P2来指示专家代理独立分析问题，产生诊断意见或治疗建议。

4.2 知识驱动协作讨论

专家代理之间进行多轮讨论，每轮讨论开始时，专家交换他们的观点，使用代理交互提示P 3 P_{3}P3让他们互相批评对方的回答，逐步解决分歧。在每轮讨论结束时，专家会被提示评估是否存在知识缺口（knowledge gap），如果有这种缺口，那么会继续针对性的招募专家来解决发现的不足。新招募的代理接收当前讨论的上下文历史作为少样本学习输入，并相应一开始的问题。

在整个讨论的过程中，所有的代理都通过提示词P 6 P_{6}P6来更新各自的推理。整个过程一个持续到达到以下两个条件中的其中一个条件：
1️⃣通过使用提示词P 3 P_{3}P3达成共识。
2️⃣达到最大讨论次数。

4.3 决策制定

在最后阶段，KAMAC调用一个调节代理(通常是一个通用的大型语言模型)来生成最终决策。主持人接收代理的最新评论集和完整的讨论历史，并通过决策提示合成响应(P 7 P_{7}P7)。

5 实验

5.1 数据集

1️⃣MedQA：为医学选择题，涵盖多科医疗知识，使用测试集中的 1273 个样本。
2️⃣Progn-VQA：为医学视觉问答对，头颈部癌症 CT 影像 + 结构化临床数据（如 TNM 分期、治疗方案），使用测试集中的 750 个样本。

5.2 实验细节

模型：主要使用 GPT-4.1-mini（温度 = 0，确保确定性输出），额外验证 DeepSeek-R1；
对比方法：单智能体（含 CoT）、多数投票（5 名专家）、共识法、MDAgents（问题驱动招募）；
关键参数：最大讨论轮数 R=3，初始专家数 = 1。

5.3 评估指标

5.4 实验结果

1️⃣使用GPT-4.1mini 的结果：

2️⃣使用DeepSeek-R1和GPT-4.1-mini对MedQA和program - vqa进行基线和KAMAC在四个指标及其平均值上的性能比较：

3️⃣初始代理数量的设置比较：

这表明，一开始就引入多个代理可能效果并不好，会在早期引入重叠或不相关的视角，从而增加后续决策中的冗余和噪声。

适配晶晨 S905X3/S912 等！纯净版刷机包 + MD5 校验

针对晶晨主流芯片（S905X3/S912/S922X/S905L4 等）单独优化，每个刷机包都内置芯片型号校验机制，刷前自动匹配硬件，避免错刷导致的设备黑屏、无法启动问题。实测在老款晶晨 S905X 机顶盒上刷入后，启动速度比原…

李华

【收藏备用】AI大模型从入门到实战：0基础也能学会的系统学习指南

AI大模型火遍全网，你是否也想入门却被“算法复杂”“数学门槛高”吓退？看着别人用LLM做项目、提效率，自己却连“Prompt怎么写”都摸不清方向？这篇专为0基础学习者打造的收藏级指南，从认知破冰到代码实操全拆解&#xf…

李华

AutoGPT能否应用于政府政务流程自动化？

AutoGPT能否应用于政府政务流程自动化？ 在政务服务大厅里，一位工作人员正为“如何起草一份符合最新政策的社区养老实施方案”犯愁。他需要查阅国家规划文件、比对地方统计数据、参考外省市案例，还要确保格式规范、措辞严谨——这一系列工作往…

李华

【CMake 】[第九篇] 解决 CMake + Visual Studio 中文乱码问题完整指南

解决 CMake Visual Studio 中文乱码问题完整指南前言在使用 CMake 生成 Visual Studio 工程后，很多开发者会遇到一个常见问题：程序运行时，控制台输出的中文字符显示为乱码。这个问题看似简单，但实际上涉及到文件编码、编译器…

李华

29、树莓派媒体中心搭建与使用全指南

树莓派媒体中心搭建与使用全指南在当今数字化时代，树莓派作为一款功能强大且价格亲民的单板计算机，被广泛应用于各种项目中。本文将详细介绍如何在树莓派上搭建和使用媒体中心，包括XBMC的编译安装、常见问题解决以及利用AirPlay协议实现音乐流播放等内容。下载与克隆XBM…

李华

蚂蚁旗下AI健康助手AQ更名为“蚂蚁阿福”，App月活超1500万

12月15日消息，蚂蚁集团宣布旗下AI健康应用AQ品牌升级为“蚂蚁阿福”，并发布App新版本，升级健康陪伴、健康问答、健康服务三大功能。升级后的“蚂蚁阿福”聚焦“健康”战略，定位从AI工具转向AI健康朋友，能够像真人朋友…

李华