news 2026/4/23 16:45:51

大模型也能「千人千面」?UIUC团队提出个性化LLM路由新框架

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型也能「千人千面」?UIUC团队提出个性化LLM路由新框架

随着大语言模型(LLM)的快速发展,我们正进入一个“模型选择”本身变得越来越复杂的时代。

一方面,大模型数量不断增加,不同模型在性能、推理成本以及回答风格上差异显著。

另一方面,在真实应用场景中,用户之间的偏好并不相同:有的用户更看重准确性,有的更关注成本,还有的更在意表达风格是否清晰、简洁或富有真情实感。

然而,现有的大多数 LLM 路由方法,仍然停留在统一的数值目标假设之下:要么只优化性能,要么只考虑成本,或者在二者之间设定阈值进行判断。这使得这些方法在多用户场景中难以适配,也无法真正做到“以用户为中心”。

针对这一问题,来自 UIUC 的研究团队在 TMLR 发表了最新工作 PersonalizedRouter,提出了一种面向多用户场景的个性化大模型路由框架,尝试学习用户隐藏的偏好特征,解决“不同用户该选最合适的大模型”的问题。

论文标题:

PersonalizedRouter: Personalized LLM Routing via Graph-based User Preference Modeling

论文地址:

https://arxiv.org/abs/2511.16883

代码地址:

https://github.com/ulab-uiuc/PersonalizedRouter

方法核心:基于用户隐藏偏好特征,进行LLM选择

PersonalizedRouter 的核心思想是:不再假设用户偏好是已知或固定的,而是从历史交互数据中,学习每个用户的隐式偏好,并据此为每一次查询选择最合适的大模型。

与以往基于向量匹配或规则判断的方法不同,PersonalizedRouter 从结构化建模的角度重新思考了 LLM 路由问题。

研究者将用户交互数据转化为一个异构图,其中包含四类节点:用户(User)任务(Task)查询(Query)大模型(LLM),不同类型节点之间通过边连接,例如用户–任务、任务–查询、查询–LLM 等。

其中,查询–LLM 边是整个路由决策的关键,边的特征来自用户的历史选择结果(如性能–成本加权权衡数值,或由 LLM-as-a-Judge 选出的最佳回答),它直接对应了在某一次交互中,这个查询最终由哪个 LLM 执行。

在图构建完成后,通过在该图上使用图神经网络(GNN),经过多轮传播后,每一类节点都会得到一个高维嵌入向量。

其中用户节点的嵌入编码了该用户在历史交互中体现出的偏好特征,因此模型可以在消息传递过程中逐步学习到不同用户在性能、成本和回答风格上潜在的偏好差异。

最终,LLM 选择被统一建模为一个链接预测问题。模型会将用户、任务和查询三个节点的最终嵌入进行融合,得到的联合嵌入用于刻画当前用户在某个任务下查询的需求。

接下来,该联合嵌入将会分别与每一个候选 LLM 的嵌入进行匹配计算。最终得到的分数用户衡量哪一个模型最可能是“这个用户最满意的选择”。

两种模拟策略,系统评估「个性化能力」

在多用户 LLM 路由场景下,真实用户偏好既复杂又难以直接获取。如果仅在单一评价指标下进行评估,很容易错误估计模型的实际水平。

因此为了系统性地评估不同路由方法在多用户场景下的表现,论文设计了两种模拟评估策略:

1. 多成本-性能权衡模拟

聚焦于性能与推理成本之间的权衡,通过不同权重组合,模拟从性能优先到节省成本优先等多种用户类型。

论文通过线性组合构造一个统一的 reward 函数,reward 函数由回答的性能和成本约束,其中性能与成本分别拥有不同权重。

2. LLM-as-a-Judge 模拟

在很多应用场景中,用户更关心 LLM 的回答是否符合自己的阅读和理解习惯,而这类偏好往往难以用传统指标量化。

论文利用额外的大模型作为裁判,根据不同用户画像(如工程师、学生、内容创作者等)来判断哪种回答更符合其偏好,从而模拟选出最适合各个群体的答案。

PersonaRoute-Bench:更大规模的多用户评测基准

为了检验个性化路由在真实系统级别的可扩展性,研究者构建了 PersonaRoute-Bench,将评测从小规模用户推进到更贴近真实应用的千级用户规模。

在这个基准中,研究者围绕两个关键目标进行设计:1)用户偏好分布要足够丰富,减少使用刻板用户风险;2)偏好标注机制更加稳健,减少单一裁判模型引入的偏差。

在多成本-性能权衡模拟路径下,研究者通过采用更细粒度的偏好阈值,将reward 函数形成更连续的偏好值,以模拟真实世界中用户多样性的场景。

在 LLM-as-a-Judge 模拟路径下,研究者采用了三种不同的裁判 LLM,每种裁判 LLM 依次采用两种不同的裁判指令模板进行选择。最终每一个用户画像将在 6 种裁判配置下进行用户偏好模拟。

实验结果:在多种场景下显著优于现有方法

实验结果表明,PersonalizedRouter 在多项关键指标上均显著超过现有主流方法:

如上图所示,在小规模设置(9 名用户、10 个候选 LLM)和 PersonaRoute-Bench 大规模设置场景下,PersonalizedRouter 能够在两种设置下同时取得优势。

进一步对比小规模与大规模实验可以发现 PersonalizedRouter 在用户数量从个位数扩展到千级时,性能在保持领先的情况下,相比较最佳表现仅下降约 5%。

如上图所示,在引入新用户或新模型的场景下,PersonalizedRouter表现出强大的泛化性,仍可达到完整训练模型大部分的性能。

如上图所示,考虑到模拟用户不能完全模拟真实用户行为分布,研究者在一个Human-as-a-Judge小规模真实用户交互数据集上进行了实验,PersonalizedRouter 在真实用户偏好下的仍具强大的能力。

总结:“以用户为中心”的路由愈发重要

在大模型能力特长不断分化、用户需求持续变化的背景下,这项工作表明,LLM 路由不应只是性能或成本的权衡,而应从用户出发,能够学习并适配用户差异。

通过将用户偏好视为可学习的隐藏变量,并在多用户、大规模场景下验证其可扩展性,PersonalizedRouter 展示了一种更接近真实系统需求的路由范式,也为构建以用户为中心的多模型协同系统提供了可行路径。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 14:46:12

数学题拍照答疑App:GLM-4.6V-Flash-WEB解析几何图形辅助解题

数学题拍照答疑App:GLM-4.6V-Flash-WEB解析几何图形辅助解题在今天的在线学习场景中,一个学生拍下一道复杂的几何题,不到一秒就收到完整的解题步骤——这种“拍照即答”的体验早已不是科幻。然而背后的技术挑战却远比表面看起来复杂得多&…

作者头像 李华
网站建设 2026/4/23 15:32:13

电商网站XSS攻击实战:从漏洞发现到防御方案

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个模拟电商网站XSS攻击演示系统,包含:1.商品展示页面的评论功能(存在存储型XSS漏洞) 2.用户个人资料页(存在反射型XSS漏洞) 3.后台管理系统演示如何检…

作者头像 李华
网站建设 2026/4/19 1:51:28

跨境电商产品图本地化适配:GLM-4.6V-Flash-WEB识别文化禁忌元素

跨境电商产品图本地化适配:GLM-4.6V-Flash-WEB识别文化禁忌元素 在跨境电商的日常运营中,一张看似普通的商品图片,可能因为一个手势、一种颜色或一段背景图案,在某个海外市场引发争议甚至法律风险。比如,某中国卖家将一…

作者头像 李华
网站建设 2026/4/21 21:57:04

CLAUDECODE实战:从零构建一个电商网站

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 使用CLAUDECODE构建一个完整的电商网站项目。前端应包括响应式设计、商品展示、购物车和结账功能。后端应支持用户认证、订单管理和支付接口集成。数据库应存储商品信息、用户数据…

作者头像 李华
网站建设 2026/4/22 21:35:39

Leetcode 23. 合并 K 个升序链表 (Day 12)

js一刷 最佳方法 var merge function(list1, list2) {const dummy new ListNode(); let cur dummy; while (list1 && list2) {if (list1.val < list2.val) {cur.next list1; list1 list1.next;} else { cur.next list2; list2 list2.next;}cur cur.next;}cu…

作者头像 李华
网站建设 2026/4/18 17:23:03

传统指标编写vsAI生成:效率对比实测

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 开发一个效率对比演示工具&#xff0c;左侧显示手动编写通达信指标的传统流程&#xff08;分析需求→查语法→调试代码&#xff09;&#xff0c;右侧展示AI生成流程&#xff08;输…

作者头像 李华