大模型也能「千人千面」？UIUC团队提出个性化LLM路由新框架-深圳市維司達科技有限公司

随着大语言模型（LLM）的快速发展，我们正进入一个“模型选择”本身变得越来越复杂的时代。

一方面，大模型数量不断增加，不同模型在性能、推理成本以及回答风格上差异显著。

另一方面，在真实应用场景中，用户之间的偏好并不相同：有的用户更看重准确性，有的更关注成本，还有的更在意表达风格是否清晰、简洁或富有真情实感。

然而，现有的大多数 LLM 路由方法，仍然停留在统一的数值目标假设之下：要么只优化性能，要么只考虑成本，或者在二者之间设定阈值进行判断。这使得这些方法在多用户场景中难以适配，也无法真正做到“以用户为中心”。

针对这一问题，来自 UIUC 的研究团队在 TMLR 发表了最新工作 PersonalizedRouter，提出了一种面向多用户场景的个性化大模型路由框架，尝试学习用户隐藏的偏好特征，解决“不同用户该选最合适的大模型”的问题。

论文标题：

PersonalizedRouter: Personalized LLM Routing via Graph-based User Preference Modeling

论文地址：

https://arxiv.org/abs/2511.16883

代码地址：

https://github.com/ulab-uiuc/PersonalizedRouter

方法核心：基于用户隐藏偏好特征，进行LLM选择

PersonalizedRouter 的核心思想是：不再假设用户偏好是已知或固定的，而是从历史交互数据中，学习每个用户的隐式偏好，并据此为每一次查询选择最合适的大模型。

与以往基于向量匹配或规则判断的方法不同，PersonalizedRouter 从结构化建模的角度重新思考了 LLM 路由问题。

研究者将用户交互数据转化为一个异构图，其中包含四类节点：用户（User）任务（Task）查询（Query）大模型（LLM），不同类型节点之间通过边连接，例如用户–任务、任务–查询、查询–LLM 等。

其中，查询–LLM 边是整个路由决策的关键，边的特征来自用户的历史选择结果（如性能–成本加权权衡数值，或由 LLM-as-a-Judge 选出的最佳回答），它直接对应了在某一次交互中，这个查询最终由哪个 LLM 执行。

在图构建完成后，通过在该图上使用图神经网络（GNN），经过多轮传播后，每一类节点都会得到一个高维嵌入向量。

其中用户节点的嵌入编码了该用户在历史交互中体现出的偏好特征，因此模型可以在消息传递过程中逐步学习到不同用户在性能、成本和回答风格上潜在的偏好差异。

最终，LLM 选择被统一建模为一个链接预测问题。模型会将用户、任务和查询三个节点的最终嵌入进行融合，得到的联合嵌入用于刻画当前用户在某个任务下查询的需求。

接下来，该联合嵌入将会分别与每一个候选 LLM 的嵌入进行匹配计算。最终得到的分数用户衡量哪一个模型最可能是“这个用户最满意的选择”。

两种模拟策略，系统评估「个性化能力」

在多用户 LLM 路由场景下，真实用户偏好既复杂又难以直接获取。如果仅在单一评价指标下进行评估，很容易错误估计模型的实际水平。

因此为了系统性地评估不同路由方法在多用户场景下的表现，论文设计了两种模拟评估策略：

1. 多成本-性能权衡模拟

聚焦于性能与推理成本之间的权衡，通过不同权重组合，模拟从性能优先到节省成本优先等多种用户类型。

论文通过线性组合构造一个统一的 reward 函数，reward 函数由回答的性能和成本约束，其中性能与成本分别拥有不同权重。

2. LLM-as-a-Judge 模拟

在很多应用场景中，用户更关心 LLM 的回答是否符合自己的阅读和理解习惯，而这类偏好往往难以用传统指标量化。

论文利用额外的大模型作为裁判，根据不同用户画像（如工程师、学生、内容创作者等）来判断哪种回答更符合其偏好，从而模拟选出最适合各个群体的答案。

PersonaRoute-Bench：更大规模的多用户评测基准

为了检验个性化路由在真实系统级别的可扩展性，研究者构建了 PersonaRoute-Bench，将评测从小规模用户推进到更贴近真实应用的千级用户规模。

在这个基准中，研究者围绕两个关键目标进行设计：1）用户偏好分布要足够丰富，减少使用刻板用户风险；2）偏好标注机制更加稳健，减少单一裁判模型引入的偏差。

在多成本-性能权衡模拟路径下，研究者通过采用更细粒度的偏好阈值，将reward 函数形成更连续的偏好值，以模拟真实世界中用户多样性的场景。

在 LLM-as-a-Judge 模拟路径下，研究者采用了三种不同的裁判 LLM，每种裁判 LLM 依次采用两种不同的裁判指令模板进行选择。最终每一个用户画像将在 6 种裁判配置下进行用户偏好模拟。

实验结果：在多种场景下显著优于现有方法

实验结果表明，PersonalizedRouter 在多项关键指标上均显著超过现有主流方法：

如上图所示，在小规模设置（9 名用户、10 个候选 LLM）和 PersonaRoute-Bench 大规模设置场景下，PersonalizedRouter 能够在两种设置下同时取得优势。

进一步对比小规模与大规模实验可以发现 PersonalizedRouter 在用户数量从个位数扩展到千级时，性能在保持领先的情况下，相比较最佳表现仅下降约 5%。

如上图所示，在引入新用户或新模型的场景下，PersonalizedRouter表现出强大的泛化性，仍可达到完整训练模型大部分的性能。

如上图所示，考虑到模拟用户不能完全模拟真实用户行为分布，研究者在一个Human-as-a-Judge小规模真实用户交互数据集上进行了实验，PersonalizedRouter 在真实用户偏好下的仍具强大的能力。

总结：“以用户为中心”的路由愈发重要

在大模型能力特长不断分化、用户需求持续变化的背景下，这项工作表明，LLM 路由不应只是性能或成本的权衡，而应从用户出发，能够学习并适配用户差异。

通过将用户偏好视为可学习的隐藏变量，并在多用户、大规模场景下验证其可扩展性，PersonalizedRouter 展示了一种更接近真实系统需求的路由范式，也为构建以用户为中心的多模型协同系统提供了可行路径。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以markdown格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

大模型也能「千人千面」？UIUC团队提出个性化LLM路由新框架

数学题拍照答疑App：GLM-4.6V-Flash-WEB解析几何图形辅助解题

电商网站XSS攻击实战：从漏洞发现到防御方案

跨境电商产品图本地化适配：GLM-4.6V-Flash-WEB识别文化禁忌元素

CLAUDECODE实战：从零构建一个电商网站

Leetcode 23. 合并 K 个升序链表 (Day 12)

传统指标编写vsAI生成：效率对比实测