news 2026/4/23 13:29:32

Transformer+Listwise：一文读懂个性化重排模型PRM

张小明

前端开发工程师

1.2k 24

文章封面图 — Transformer+Listwise：一文读懂个性化重排模型PRM

目录

引言

在推荐系统的多阶段架构中，重排环节承担着“精雕细琢”的核心作用——它以精排输出的候选物品列表为输入，通过建模物品间的交互关系与用户个性化偏好，优化最终推荐顺序，提升用户体验。传统重排方法如分步贪婪策略、上下文感知模型，要么难以获得全局最优解，要么对复杂交互的建模能力不足。

2019年RecSys上提出的个性化重排模型（Personalized Re-ranking Model, PRM），创新性地将Transformer引入推荐重排场景，构建了兼顾全局交互与个性化偏好的Listwise重排模型，成为Transformer跨领域落地的经典案例。本文将结合“10个物品（item₁~item₁₀）”的具体场景（假设基础特征维度d=128，推荐场景典型设置），从模型背景、核心架构、关键设计与技术价值四个维度，全面解析PRM的技术原理与实践意义。

一、PRM的诞生背景：推荐重排的核心痛点

推荐系统的主流架构为“召回-精排-重排”三级漏斗，其中重排阶段的输入是精排筛选后的候选列表（通常包含数十个物品，本文以10个为例），核心目标是优化列表的整体排序质量。这一阶段面临两个核心痛点：

物品间的交互关系未被充分建模：精排阶段多采用Pointwise模型，仅关注“用户-单个物品”的相关性，忽略了列表中物品的搭配、冗余等交互问题。例如，10个候选物品中连续推荐多条连衣裙会导致用户审美疲劳，而连衣裙搭配高跟鞋则能提升推荐效果。
个性化偏好的精细化表达不足：传统重排模型的用户偏好表征较为粗糙，难以针对10个物品生成差异化的用户兴趣向量，导致推荐缺乏个性化。

针对上述痛点，PRM提出两大核心思路：用Transformer捕捉10个物品间的全局交互，用预训练个性化向量增强用户-物品的偏好匹配，由此构建出Listwise范式下的高效重排模型。

二、PRM的核心架构：三大模块的协同工作（基于10个item案例）

PRM的整体架构可拆解为输入层、编码层、输出层三部分，其设计紧密围绕“列表级建模”与“个性化融合”两大核心目标。以下结合10个item（item₁~item₁₀）、基础维度d=128的设定，详细拆解各模块的输入输出、维度变化与核心过程：

（一）输入层：多特征融合的物品表征

输入层的核心任务是为10个物品分别生成包含物品特征、用户个性化偏好、位置信息的初始表征向量，每个向量维度统一为128，具体由三部分组成：

物品原始特征x i x_ixi：包含每个物品的ID、类别、价格等基础属性，经Embedding编码后转化为128维向量。
- 单个物品维度：[ 1 , 128 ] [1, 128][1,128]
- 10个物品总维度：[ 10 , 128 ] [10, 128][10,128]
用户个性化向量p v i pv_ipvi：PRM实现个性化的核心模块，由预训练子模型生成。该子模型以用户历史行为序列H u H_uHu、当前物品i ii、用户属性为输入，为每个物品生成专属的128维个性化向量（比如item₁对应的p v 1 pv_1pv1侧重用户对“上衣”的偏好，item₂对应的p v 2 pv_2pv2侧重用户对“裤子”的偏好）。
- 单个物品维度：[ 1 , 128 ] [1, 128][1,128]
- 10个物品总维度：[ 10 , 128 ] [10, 128][10,128]
位置编码p e i pe_ipei：标记物品在精排初始列表中的位置（如item₁是第1位、item₅是第5位），解决Transformer对序列位置不敏感的问题，维度为128。
- 单个物品维度：[ 1 , 128 ] [1, 128][1,128]
- 10个物品总维度：[ 10 , 128 ] [10, 128][10,128]

输入层的变换过程：
将每个物品的x i x_ixi、p v i pv_ipvi先拼接（拼接后维度为256），再通过线性层压缩至128维，最后与同维度的p e i pe_ipei相加，得到每个物品的初始表征e i e_iei，公式如下：
e i = Linear ( [ x i ; p v i ] ) + p e i e_i = \text{Linear}([x_i; pv_i]) + pe_iei=Linear([xi;pvi])+pei

单个物品最终表征维度：[ 1 , 128 ] [1, 128][1,128]
10个物品总输出维度：[ 10 , 128 ] [10, 128][10,128]（即e = [ e 1 , e 2 , . . . , e 10 ] e = [e_1, e_2, ..., e_{10}]e=[e1,e2,...,e10]）

（二）编码层：Transformer驱动的全局交互建模

编码层是PRM的核心，由N x N_xNx个Transformer编码器块堆叠而成（论文中常用6层），每个编码器块包含多头自注意力层与前馈网络（FFN），并辅以残差连接与层归一化。以下以“1个Transformer块”为例，拆解10个物品的向量变换过程：

子步骤2.1：Multi-Head Attention（多头自注意力）——捕捉全局交互

核心目标是让10个物品的向量互相“关注”，融合全局交互信息：

输入：10个物品的初始表征e ee，维度[ 10 , 128 ] [10, 128][10,128]
具体变换：
1. 将[ 10 , 128 ] [10, 128][10,128]的输入向量分别映射为查询Q QQ、键K KK、值V VV，三者维度均为[ 10 , 128 ] [10, 128][10,128]；
2. 计算Q QQ与K KK的相似度（如点积），生成[ 10 , 10 ] [10, 10][10,10]的注意力权重矩阵（每行代表一个物品对其他9个物品的关注程度，比如item₁对item₇的权重高，说明两者搭配性强）；
3. 用权重矩阵对V VV加权求和，再通过多头并行计算（如8头），最终拼接后压缩回128维；
输出：融合全局交互信息的向量a t t n o u t attn_{out}attnout，维度[ 10 , 128 ] [10, 128][10,128]
残差+归一化：a t t n o u t = LayerNorm ( e + a t t n o u t ) attn_{out} = \text{LayerNorm}(e + attn_{out})attnout=LayerNorm(e+attnout)，保证训练稳定性。

子步骤2.2：FFN（前馈网络）——增强单个物品特征

FFN是两层全连接网络，采用“参数共享、逐物品独立计算”的模式，核心是增强每个物品的特征表达：

输入：a t t n o u t attn_{out}attnout，维度[ 10 , 128 ] [10, 128][10,128]
具体变换（以item₁为例）：
1. 第一层：Linear ( 128 → 512 ) + ReLU \text{Linear}(128 \rightarrow 512) + \text{ReLU}Linear(128→512)+ReLU，将item₁的128维向量扩展至512维，引入非线性；
2. 第二层：Linear ( 512 → 128 ) \text{Linear}(512 \rightarrow 128)Linear(512→128)，将512维向量压缩回128维，与注意力层输出维度保持一致；
3. 10个物品依次用同一套FFN参数独立计算，最终得到10个增强后的向量；
输出：f f n o u t ffn_{out}ffnout，维度[ 10 , 128 ] [10, 128][10,128]
残差+归一化：f f n o u t = LayerNorm ( a t t n o u t + f f n o u t ) ffn_{out} = \text{LayerNorm}(attn_{out} + ffn_{out})ffnout=LayerNorm(attnout+ffnout)

编码层的最终输出：
经过N x N_xNx个Transformer块堆叠后，10个物品的向量最终转化为融合“全局交互+个性化+特征增强”的表征e n c o u t enc_{out}encout，维度仍为[ 10 , 128 ] [10, 128][10,128]。

（三）输出层：生成排序分数与最终列表

输出层的核心是将10个物品的表征向量转化为排序分数，最终得到优化后的列表：

输入：e n c o u t enc_{out}encout，维度[ 10 , 128 ] [10, 128][10,128]
具体变换：
1. 线性映射：对每个物品的e n c o u t i enc_{out}^iencouti（如item₁的128维向量）过一个线性层，输出标量排序分数S c o r e ( i ) Score(i)Score(i)，单个分数维度[ 1 , 1 ] [1, 1][1,1]；
2. Softmax归一化：对10个S c o r e ( i ) Score(i)Score(i)（S c o r e ( i t e m 1 ) S c o r e ( i t e m 10 ) Score(item_1)~Score(item_{10})Score(item1)Score(item10)）做Softmax，转化为概率分布（维度[ 10 , 1 ] [10, 1][10,1]），所有分数之和为1；
输出：按S c o r e ( i ) Score(i)Score(i)从高到低排序，得到最终重排列表（例如i t e m 7 item_7item7排第1、i t e m 2 item_2item2排第2、i t e m 10 item_{10}item10排第10等）。

全流程维度总结（10个item场景）

模块	输入维度	输出维度	核心变换
输入层	[ 10 , 128 ] × 3 [10, 128]×3[10,128]×3（x/pv/pe）	[ 10 , 128 ] [10, 128][10,128]	拼接+线性压缩+位置编码相加
注意力层	[ 10 , 128 ] [10, 128][10,128]	[ 10 , 128 ] [10, 128][10,128]	10个物品全局交互+残差归一化
FFN层	[ 10 , 128 ] [10, 128][10,128]	[ 10 , 128 ] [10, 128][10,128]	逐物品独立非线性变换+残差归一化
输出层	[ 10 , 128 ] [10, 128][10,128]	[ 10 , 1 ] [10, 1][10,1]	线性映射+Softmax+排序

三、PRM的关键设计：Listwise范式的深度体现

PRM是典型的Listwise重排模型，其设计全程围绕“以列表为单位建模”的核心思想，结合10个item的案例可更直观理解：

输入是完整的物品列表：模型输入是10个物品组成的完整候选列表，而非孤立的单个物品（如Pointwise）或物品对（如Pairwise），从源头上保证“列表级建模”。
核心运算捕捉全局交互：多头自注意力让10个物品的向量互相融合（比如item₃的向量包含item₁、item₅等其他9个物品的信息），解决了“连衣裙+高跟鞋”的搭配建模问题。
损失函数优化列表整体效果：PRM采用负对数似然损失（NLL），损失计算依赖10个物品的分数和（Softmax分母是10个物品的exp ⁡ ( S c o r e ( i ) ) \exp(Score(i))exp(Score(i))之和），目标是最大化用户真实交互物品的概率（比如用户实际点击了item₇和item₂，模型会让这两个物品的概率尽可能高）。损失函数公式如下：
L = − 1 M ∑ u ∈ U ∑ s t ∈ S u log ⁡ P ( s t ∣ u , L u ) \mathcal{L} = -\frac{1}{M} \sum_{u \in U} \sum_{s_t \in S_u} \log P(s_t|u, L_u)L=−M1u∈U∑st∈Su∑logP(st∣u,Lu)
其中，S u S_uSu是用户的真实交互序列（如[ i t e m 7 , i t e m 2 ] [item_7, item_2][item7,item2]），L u L_uLu是10个物品的候选列表。

四、PRM的技术价值与影响

PRM的提出，为推荐重排任务提供了一种兼顾全局交互与个性化偏好的高效解决方案，其技术价值主要体现在两点：

验证了Transformer在推荐场景的适用性：通过10个物品的案例可见，Transformer的自注意力机制能高效捕捉物品间的复杂交互，为后续SIM、BST等模型引入Transformer奠定了基础。
推动了Listwise重排模型的工业化落地：PRM的维度设计（如d=128）、模块结构（共享参数FFN）兼顾了效果与工程效率，10个物品的计算量可控，使其能在电商、短视频等领域大规模应用。

五、总结

PRM作为Transformer在推荐重排任务中的经典实践，通过“个性化向量融合+Transformer全局交互建模+Listwise损失优化”的三重设计，完美解决了传统重排模型的痛点。结合10个item的具体维度案例可见，其核心逻辑是“从列表输入到列表输出”，全程围绕“优化列表整体效果”展开。这种设计不仅适用于推荐系统，也为广告排序、内容分发等序列建模任务提供了可借鉴的思路，在大模型与推荐系统融合的趋势下仍具有重要参考价值。

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/4/16 21:20:48

Qwen3-VL本地部署实战：解锁PC端多模态AI视觉理解能力

Qwen3-VL本地部署实战：解锁PC端多模态AI视觉理解能力【免费下载链接】Qwen3-VL-4B-Instruct-unsloth-bnb-4bit 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/Qwen3-VL-4B-Instruct-unsloth-bnb-4bit 还在为云端AI服务的高延迟和高成本烦恼吗&…

作者头像

李华

网站建设 2026/4/21 20:55:10

07_C 语言进阶之避坑指南：动态内存分配 —— 裸机开发中 “地主余粮” 的管理陷阱

C 语言进阶之避坑指南：动态内存分配 —— 裸机开发中 “地主余粮” 的管理陷阱一、动态内存分配的 “坑”，你踩过吗？ “malloc 后忘记 free，程序运行久了内存溢出崩溃？” “free 后未置空指针，后续操作触发野指针异常？” “动态分配数组时少算一个字节，导致内存越…

作者头像

李华

网站建设 2026/4/18 17:22:18

博士茶馆慕荷老师《星火智能云商：躺着赚钱，革新电商模式》

在当今这个瞬息万变的商业时代，电商领域始终是创新与变革的前沿阵地。而近期，一款名为《星火智能云商》的项目横空出世，宛如一颗璀璨的流星划过电商的夜空，不仅改变了传统电商模式，更为众多怀揣财富梦想的人开启了一扇…

作者头像

李华

网站建设 2026/4/22 1:58:59

大数据中的数据同步预处理：保障数据质量的第一道防线

在大数据平台建设中，数据同步是连接源系统与数据仓库（或数据湖）的核心流程。无论是从业务数据库（如 MySQL、Oracle）抽取数据，还是从日志系统、第三方 API 获取信息，原始数据往往存在噪声、不一致…

作者头像

李华

网站建设 2026/4/23 12:43:46

基于工程分支的组件版本号策略：实现可控修复与主分支平滑升级

1. 工程分支场景分析 1.1 典型场景在产品定制化或长期支持版本中，常见以下需求： 从主分支的特定发布点（如LTS版本）拉取工程分支仅引入必要的问题修复，拒绝功能更新工程分支需要有独立的版本演进路径最终用户可无缝从工…

作者头像

李华

网站建设 2026/4/23 0:29:00

《大明王朝 1566》电子版书籍 + 46 集影视高清资源，速存防失效

经典历史剧《大明王朝 1566》的电子版书籍与 46 集影视资源，是不少历史爱好者的刚需，现整理免费分享渠道，亲测有效。电子版书籍推荐 PDF 高清版，带原著细节注释，可通过网盘提取（，支持手机、…

作者头像

李华