1.DeepSeekMath —— 首提GRPO的关键论文
2024年初,DeepSeek在其论文*《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》*中首次提出了Group Relative Policy Optimization(组相对策略优化),简称GRPO。
在这之前,大模型有监督SFT阶段之后的训练方式,主要有两类:
- PPO:纯强化学习RL算法,需要加载4个模型,两推两训;效果可能上限高,但是训练不稳定,资源消耗大;
- DPO(Direct Preference Optimization, 直接偏好优化):类有监督学习SFT算法,去掉奖励模型和价值模型,直接通过偏好数据pair+分类损失函数来优化大模型;训练稳定,但是极依赖高质量标注数据对。
有没有一种方法,比PPO消耗资源少,又比DPO上限高呢?
有,GRPO应运而生。
PPO和GRPO的训练流程对比 图源[1]
从上图看,GRPO相比于PPO最大的变化,就是去掉了Value Model。
咱再一起回想一下,
PPO中的Value Model有什么作用?
- **直观理解:(预言家)**评估当前policy model输出的token会带来的期望收益,防止模型过于聚焦当下token带来的即时奖励;
- 实际落地:(方差抑制器)Value Model的输出结果主要用在GAE的计算中,通过\lambda的引入,控制Value Model的作用占比,降低纯用奖励函数的方差。
从这两点来看,感觉Value Model很重要啊,为什么GRPO要去掉它呢?为什么可以去掉它呢?
为什么要去掉Value Model?
一方面,Value Model需要在PPO主训练流程中和Policy Model一起训练,相比于其余两个只推理不训练的模型,Value Model的显存占用很大;
另一方面,Value Model本身的训练——预测一段几千字生成的期望收益score——比较难,value loss不容易收敛,PPO的训练就会容易失败。
**
**为什么可以去掉Value Model?
答案就在 GRPO (Group Relative Policy Optimization) 的名字里——Group(组),即GRPO的核心逻辑是用“群众路线”替代“上帝视角”。
怎么理解呢?
在PPO中,我们是让策略模型生成一个答案,然后问Value Model(上帝/预言家):“这题它答得好不好?”Value Model说:“这题平均能得80分,它得了85分,奖励它!”
而在GRPO中,我们不再需要“上帝”来指挥,而是与“群众”同在;即对于同一个问题,让当前的策略模型一口气生成一组不同的回答(比如一组生成64个或者16个答案),平均用奖励模型打分之后,得到策略模型处理这个问题的“平均水平”,然后每个回答的得分和“平均水平”一减,就知道其中某一次回答的好坏了。
有了对GRPO直观的理解之后,再一起看下PPO和GRPO的公式对比,了解一些细节变化:
PPO的计算公式 图源[1]
GRPO的计算公式,红框是与PPO的几点区别 图源[1]
从左到右
红框1:相对于PPO,需要对每个q生成一组G个o,然后求这G个回答的平均优势;
红框2:通过上期的介绍,我们知道PPO的优势A是由奖励模型、参考模型和价值模型这3个模型的输出来计算的;GRPO去掉了价值模型,它的优势又是怎么估计的呢?非常简单直接:
对于策略模型生成的G个回答,用奖励模型计算G个奖励score集合:
GRPO的优势A计算公式:
即第i个回答的第t个token的优势是与t无关的,即第i个回答的红框2的大小与token无关,一个回答内的所有红框2的值其实是一样的;
红框3:如红框2所示,优势 中去掉了参考模型的约束,论文中是这么说的:
GRPO 并没有在奖励中添加 KL 惩罚,而是直接将训练策略与参考策略之间的 KL 散度添加到损失中,从而避免了优势计算的复杂性。
同时,GRPO没有沿用PPO中的KL惩罚计算公式,而是采用了如下所示的计算公式,强调了其无偏估计和非负性。
综上,GRPO算法基本介绍完了,总结来说,GRPO在PPO的基础上,去掉了Value Model,引入了“组”的概念,用组内平均奖励替代价值模型的拟合奖励。
GRPO的训练流程伪代码 图源[1]
除了GRPO算法本身,在这篇论文中,DeepSeek还提出了Process Supervision RL with GRPO,即**过程式地计算奖励。**相比于原来GRPO算法中,一个回答的每个token的优势计算都一样,Process Supervision RL with GRPO是对推理过程分阶段评估奖励,如下图所示:对于每个回答i,分为K_i个阶段,对每个阶段计算奖励并标准化;对于每个回答i的第t个token的奖励值,就是t之后的所有阶段的标准化奖励之和。
Process Supervision RL with GRPO
通过论文的实验也能看出,过程式的GRPO(蓝线)整体效果是好于基本的GRPO(黄线)的。这也比较符合直觉,毕竟过程式的GRPO对模型的整体回答做了更精细化的评估反馈,相比于原来的“一刀切”,对模型回答评估的稳定性更强。但是,这又引入了额外的奖励模型训练成本,奖励模型的训练数据需要精细化标注,奖励模型的训练损失也需要拟合多个子奖励等。
不同方法的训练效果对比 图源[1]
2.DeepSeek-R1 [2] —— DeepSeek的“出圈”论文
PPO最开始用在LLM中,主要是为了把人类偏好注入到大模型中;GRPO一方面是对PPO算法本身的优化,另一方面也是被比较早用在与数学和逻辑推理相关任务的效果提升中,也就是说,DeepSeek较早就在关注RL算法对模型逻辑推理能力的提升。
2024年下半年,OpenAI发布了o1系列推理思考模型,除了会回答用户问题外,还会输出推理思考的过程,引起了全世界的广泛关注。因为是闭源模型,大家纷纷猜测它的思维链能力是用蒙特卡洛式的强化学习方式训练出来的;但是这个标注成本和标注质量都要求很高,让大家望而却步。
一些转机出现在2025年初。
距离GRPO的提出近一年后,DeepSeek发布并开源了DeepSeek-R1大模型,其媲美o1的强劲的思维链能力,和远低于o1的低廉的训练成本使其一夜爆火,也让GRPO算法受到广泛关注。
总的来说,DeepSeek-R1的论文中没有特别的算法创新,主要还是基于GRPO来训练模型的(没有采用我们上一节提到的过程式GRPO,这个我们后面会提到)。但是其在数据生成、训练过程、奖励设置等方面在当时独树一帜。
DeepSeek-R1-Zero & DeepSeek-R1训练流程 图源[2]
这里面主要涉及到两个模型的训练:
- DeepSeek-R1-Zero(上图左中)
R1-Zero模型可以理解成DeepSeek对“用强化学习提升模型逻辑推理能力”的实验产物。这个模型的训练跳过了一般LLM训练必备的SFT过程,直接用预训练好的base模型进行强化学习GRPO后训练。训练数据是逻辑推理性的问题(数学或者代码),有标准的答案,但是没有任何标注的思考过程。整个训练过程有“奖励”的反馈,但是“奖励”来自于“规则”而不是预训练的“模型”,而R1-Zero采用的规则主要包括:1)答案是否准确Accuracy;2)答案是否符合格式要求Format。
这样做的目的是不受“思维链标注数据量”的局限,有问题有答案,用RL的方式让模型“自我探索”思考过程。
R1-Zero的实验结果显示,通过这种训练方式,模型确实在相应任务上的准确性等表现显著提升;另外论文里还提到,模型在训练到一定程度时会出现“Aha”时刻,就好像人们反复思索一个问题,突然灵光一闪一样。
但是只是这样做仍然有很多问题,比较突出的就是:1)思考过程很难理解;2)多种语言混杂输出。
- DeepSeek-R1(上图右下)
为了训练一个具备思考能力,又兼具一定通用能力的模型,DeepSeek推出了R1。R1是上图中第三列训练流程中的产物,可以看到其整体流程符合一般的LLM训练过程的(预训练-SFT-RL)的过程,相比于非思考类LLM,不同之处在于增加了Reasoning data(SFT)和Preference Reward(RL)。
而前两列我们可以理解成是在为第三列中的SFT过程构造优质的Reasoning数据(包括R1-Zero),这里就不再展开了。最终训练出的R1模型的效果,大家也都有目共睹。
DeepSeek也从这次模型的训练中,体会到多轮训练,迭代增强其模型合成数据质量的好处。所以这一思想也被后续继续沿用。
为什么没有用过程式GRPO?
如上一节提到的,DeepSeekMath中的实验显示,过程式GRPO的效果会比基础GRPO的好(直觉上可能也是这样感觉)。但是在DeepSeek R1版本中没有使用这一点。没有使用的原因在最近(2026年1月)更新的DeepSeek R1的论文里有了详细的解释。
First, it is challenging to explicitly define a fine-grain step in general reasoning. Second, determining whether the current intermediate step is correct is a challenging task. Automated annotation using models may not yield satisfactory results, while manual annotation is not conducive to scaling up. Third, once a model-based PRM is introduced, it inevitably leads to reward hacking, and retraining the reward model needs additional training resources and it complicates the whole training pipeline.
首先,在一般推理中明确定义细粒度步骤具有挑战性。其次,判断当前中间步骤是否正确也是一项挑战。使用模型进行自动标注可能无法获得令人满意的结果,而手动标注则不利于规模化应用。第三,一旦引入基于模型的奖励机制,就不可避免地会导致奖励作弊,而重新训练奖励模型需要额外的训练资源,这会使整个训练流程变得复杂。
虽然DeepSeek在R1论文中这么说,但是他们其实一直在探索对中间过程的奖励机制算法,防止模型在训练过程中“奖励作弊”。DeepSeekMath-V2就是他们最近交出的答卷。
3.DeepSeekMath-V2 [3]
从上一节的介绍中可以看出,DeepSeek-R1相当于走了一条“捷径”来减少思维链数据标注成本,并没有对中间过程进行奖励反馈;但是这样不能解决两类问题:
1)过程不对,但是答案蒙对了的case;
2)过程对了,但是最终答案没算对的case。
DeepSeek并不是没有尝试过程式GRPO的方法,而是由于上一节提到的3大挑战收效甚微。
2025年12月,DeepSeekMath-V2提出的方法,尝试在答案准确性之上,用一种更灵活更全面的方式来对推理的过程进行监督评估。
在开始介绍具体算法之前,我们先引入一个场景,帮助后续算法思路的理解。
想象有一个数学考试,其中有一道证明题,要求考生给出证明过程和答案。
考试结束之后,阅卷老师仔细阅读每个考生的证明过程和答案,并给出打分依据和最终打分。
在一些重要的考试中,还会有审核老师,拿着考生的答案和老师的打分进行审查,看阅卷老师打分合不合适,防止徇私舞弊或偷工减料。
DeepSeekMath-V2的RL算法中的几个关键概念的直观理解
整个DeepSeekMath-V2的训练流程包含两部分:Proof Verifier的训练和Proof Generator的训练,训练流程图如下:
Proof Verifier的训练流程
Proof Generator的训练流程
除了每个模型单独的训练之外,DeepSeek还利用GAN的思想(即“魔高一尺,道高一丈”),让第k次训练出的Proof Genarator取代k+1次的Proof Verifier的训练流程中的DS-V3.2-Exp-Thinking模型来生成更高质量、更多样的Proof Data,增加其分析证明过程的难度和广度,不断循环迭代增强最终的Proof Generator Model的能力。
总结
以上就是本期的全部内容啦,让我们稍稍回顾一下。
- DeepSeek首提GRPO算法,用“组策略”取代PPO中的Value Model,降低了LLM的RL后训练成本;
- 紧接着,随着OpenAI的o1系列思维链模型的爆火,DeepSeek用GRPO+规则奖励的方式,证明LLM具备自我思考和自我提升的能力,用少量的CoT标注数据训练出了优秀的R1模型;
- 最近,DeepSeekMath-V2提出的Verifier & meta-Verifier思路灵活增强了GRPO中对思考过程的奖励监督;这一方式也被DeepSeek-V3.2所采用,进一步提升了大模型的逻辑思维能力。
最后
选择AI大模型就是选择未来!最近两年,大家都可以看到AI的发展有多快,时代在瞬息万变,我们又为何不给自己多一个选择,多一个出路,多一个可能呢?
与其在传统行业里停滞不前,不如尝试一下新兴行业,而AI大模型恰恰是这两年的大风口,人才需求急为紧迫!
人工智能时代最缺的是什么?就是能动手解决问题还会动脑创新的技术牛人!智泊AI为了让学员毕业后快速成为抢手的AI人才,直接把课程升级到了V6.0版本。
这个课程就像搭积木一样,既有机器学习、深度学习这些基本功教学,又教大家玩转大模型开发、处理图片语音等多种数据的新潮技能,把AI技术从基础到前沿全部都包圆了!
课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
课程还教大家怎么和AI搭档一起工作,就像程序员带着智能助手写代码、优化方案,效率直接翻倍!
这么练出来的学员确实吃香,83%的应届生都进了大厂搞研发,平均工资比同行高出四成多。
智泊AI还特别注重培养"人无我有"的能力,比如需求分析、创新设计这些AI暂时替代不了的核心竞争力,让学员在AI时代站稳脚跟。
课程优势一:人才库优秀学员参与真实商业项目实训
课程优势二:与大厂深入合作,共建大模型课程
课程优势三:海外高校学历提升
课程优势四:热门岗位全覆盖,匹配企业岗位需求
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
·应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
·零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
·业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势,构建起"前沿课程+智能实训+精准就业"的高效培养体系。
重磅消息
人工智能V6.0升级两大班型:AI大模型全栈班、AI大模型算法班,为学生提供更多选择。
由于文章篇幅有限,在这里我就不一一向大家展示了,学习AI大模型是一项系统工程,需要时间和持续的努力。但随着技术的发展和在线资源的丰富,零基础的小白也有很好的机会逐步学习和掌握。
【最新最全版】AI大模型全套学习籽料(可无偿送):LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等,从入门到进阶再到精通,超全面存下吧!
获取方式:有需要的小伙伴,可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
来智泊AI,高起点就业
培养企业刚需人才
扫码咨询 抢免费试学
⬇⬇⬇
AI大模型学习之路,道阻且长,但只要你坚持下去,就一定会有收获。