1. 项目概述:当智能体遇见强化学习
如果你最近在关注大语言模型(LLM)和智能体(Agent)领域,可能会发现一个有趣的现象:越来越多的顶尖开源项目,开始将“强化学习”(Reinforcement Learning, RL)作为训练智能体的核心引擎。这不再是实验室里的概念验证,而是正在成为构建更强大、更可靠、能真正解决复杂任务AI系统的工程实践主流。我最初注意到这个趋势,是在尝试复现一些最新的开源Agent项目时,发现它们的训练框架从传统的监督微调(SFT)或指令微调,悄然转向了PPO、GRPO、DPO等RL算法。这背后反映了一个深刻的转变:我们不再仅仅满足于让模型“知道”该做什么,而是希望它能通过与环境交互、根据反馈(奖励)来“学会”如何做得更好。
AgentsMeetRL这个项目,正是为了梳理和追踪这一前沿交叉领域而生的一个“Awesome List”(精选资源列表)。它系统地收集、分类和标注了那些使用强化学习来训练LLM智能体的开源仓库。这个列表的价值在于,它不仅仅是一个链接合集,更是一个技术雷达。通过它,你可以清晰地看到整个社区的技术选型脉络:哪些RL框架被广泛采用(如veRL、OpenRLHF)?在搜索、代码生成、GUI操作等不同任务上,大家偏好哪种奖励设计(过程奖励 vs. 结果奖励)?多智能体协作又是如何实现的?对于研究者、工程师甚至是技术决策者来说,这份列表提供了一个快速把握技术风向、寻找合适基座或对比方案的宝贵入口。
这个项目由 thinkwee 维护,其分类体系非常细致,从通用的基础框架(Base Framework)到垂直的应用领域如搜索增强(Search & RAG)、网页与图形界面操作(Web & GUI)、代码生成(Code & SWE)等,共划分了16个大类。每个收录的项目都附带了关键的技术元数据,包括使用的RL算法、是单智能体还是多智能体、奖励类型、任务类型以及是否使用工具等。更难得的是,它还提供了一个交互式仪表盘,让数据的浏览和筛选变得更加直观。接下来,我将带你深入拆解这个列表,看看RL如何正在重塑LLM智能体的训练范式,以及我们可以从中汲取哪些实战经验。
2. 核心思路与技术选型解析
2.1 为什么是强化学习?
要理解这个列表的价值,首先要明白为什么RL成了训练LLM Agent的“新宠”。传统的LLM训练主要依赖于大规模文本数据的自监督预训练和指令微调。这种方式能让模型掌握丰富的知识和基本的指令跟随能力,但在处理需要多步决策、与环境动态交互、且没有标准答案的开放式任务时,就显得力不从心。
举个例子,让一个Agent去完成“在电商网站找到一款价格低于1000元、评分4.5以上的无线耳机并加入购物车”这样的任务。这涉及到页面导航、信息筛选、点击操作等一系列动作。监督学习很难为每一步操作提供完美的“标准答案”,因为达成目标的路径可能有很多条。而强化学习的核心思想——“试错学习”与“奖励驱动”——在这里就显示出天然的优势。Agent通过尝试不同的动作序列(浏览、点击、输入),从环境(网页)获得反馈(是否成功加入购物车、是否满足价格和评分条件),从而学习到哪些行为序列能最大化累积奖励(完成任务)。
因此,列表中的项目普遍具备两个关键特征,这也是其筛选标准:多轮交互或工具使用。这恰恰是RL最能发挥作用的场景。RL为Agent提供了在复杂、序列化决策空间中学习和优化的框架。
2.2 分类体系与演进逻辑
AgentsMeetRL的分类并非一成不变,它随着领域的发展而动态调整。在2026年3月的更新中,分类从12个扩展到了16个,新增了“多智能体RL”、“奖励与训练”、“安全”、“视觉语言模型(VLM)智能体”、“自进化”和“特定领域”等类别,同时合并了旧的GUI和Web类别。这个演变过程本身就反映了技术热点的迁移。
- 基础框架(Base Framework):这是生态的基石。像veRL(字节跳动)、OpenRLHF、trl(Hugging Face) 这类项目,提供了通用的RL训练流水线,支持多种算法(PPO, GRPO, DPO等),让研究者可以快速在其上构建自己的Agent应用。选择哪个框架,往往取决于其易用性、社区活跃度以及与现有工具链(如PyTorch, DeepSpeed)的集成度。
- 垂直应用领域:这是RL价值的具体体现。列表将应用场景细分,让我们能看清RL在不同任务上的适配性:
- 搜索与RAG:如
R1-Searcher,DeepResearch,重点在于训练Agent学会何时检索、检索什么、如何利用检索结果进行多步推理。 - Web与GUI:如
MobileAgent,InfiGUI-G1,专注于让Agent理解并操作图形用户界面,这需要将像素或UI元素解析为可执行的动作空间。 - 代码与软件工程:训练Agent编写、调试、运行代码,奖励通常来自编译器(无错误)或单元测试(通过测试)。
- 多智能体:研究多个Agent如何通过RL学会协作、竞争或分配信用,解决更复杂的群体任务。
- 搜索与RAG:如
- 支撑技术模块:如“奖励与训练”、“安全”、“环境”等类别,关注的是RL训练中的共性挑战。例如,如何设计有效的奖励函数(是只看最终结果,还是也奖励正确的中间步骤?),如何防止RL训练中的“奖励黑客”行为导致模型输出不安全内容。
这种分类方式的好处是,无论你是想解决一个具体问题(比如做一个能自动写报告的Research Agent),还是想研究某个技术点(比如多智能体信用分配),都能快速定位到相关的项目和它们的技术方案。
2.3 关键元数据:读懂技术选型表
每个项目条目下最精华的部分是那个可展开的“技术详情”表格。它用几个关键维度刻画了一个RL训练智能体项目的全貌:
RL算法:这是核心引擎。常见的有:
- PPO:经典策略梯度算法,稳定但实现复杂。
- GRPO:一种更适应LLM训练的算法,通常计算开销更小。
- DPO:直接偏好优化,无需显式奖励模型,在对齐任务中常见。
- REINFORCE:更基础的策略梯度算法。 选择哪种算法,往往基于任务特性(离散/连续动作空间)、训练稳定性需求和计算资源。
单/多智能体:定义了任务的基本形态。单智能体处理独立任务;多智能体则涉及更复杂的交互,需要解决信用分配、通信等问题。
结果/过程奖励:这是奖励设计的关键抉择。
- 结果奖励:只在任务最终成功或失败时给予奖励。简单直接,但对于长序列任务,学习信号稀疏,训练困难。
- 过程奖励:为每一步正确的中间行为提供奖励。能加速学习,但设计不当可能导致Agent“刷分”而不解决实际问题。 许多项目(如
Open-AgentRL,SPEAR)采用“两者兼顾”的策略,结合了稠密的过程奖励和稀疏的结果奖励。
任务与工具使用:指明了RL训练的具体环境和Agent的能力边界。例如,“Math”任务可能使用数学求解器作为外部验证器提供奖励;“Web”任务则意味着Agent能调用浏览器API进行操作。
理解这些元数据,就能快速评估一个项目与自身需求的匹配度。例如,如果你要训练一个能进行多轮对话的客服Agent,你可能会更关注那些在“多轮”任务上、采用“过程奖励”来塑造对话流程的项目。
3. 主流RL训练框架深度剖析
3.1 框架生态概览
从列表来看,RL训练LLM Agent的框架生态已经初步形成,并出现了几个备受瞩目的“明星项目”。它们各自有不同的设计哲学和适用场景。
veRL无疑是当前热度最高的框架之一,由字节跳动开源。它的优势在于其通用性和高性能。veRL不仅支持PPO、GRPO等多种算法,还深度优化了训练流程,能够高效处理LLM生成文本所特有的序列数据。许多顶会论文和开源项目(如LLM-in-Sandbox,AgentRL,ReSeek)都选择基于veRL进行构建,这形成了一个强大的生态效应。选择veRL,意味着你能获得丰富的社区案例、相对成熟的工具链,以及可能更好的性能表现。
OpenRLHF是另一个重要的开源项目,其特色在于专注于人类反馈的强化学习。它提供了从奖励模型训练、偏好数据收集到RLHF全流程的完整工具包。如果你的项目核心是让模型输出更符合人类偏好(例如,聊天对话的友好性、帮助性),而不仅仅是完成一个功能性子任务,那么OpenRLHF可能是更贴切的选择。它在“对话”、“聊天”类任务中应用广泛。
trl来自Hugging Face,其最大优势是与Transformers库的无缝集成。如果你已经在使用Hugging Face的模型和数据集生态,那么trl能让你以最低的迁移成本开始RL实验。它的API设计非常友好,适合快速原型验证。不过,在应对超大规模模型或极其复杂的多智能体场景时,可能需要更多的定制工作。
除了这些通用框架,还有一些针对特定场景优化的框架,例如阿里的ROLL、清华的RLinf,它们在多任务支持、算法创新(如引入了新的策略优化方法)方面各有侧重。选择框架时,一个实用的建议是:优先考虑社区活跃、文档齐全、且有与你目标场景相近成功案例的框架。这能极大降低前期踩坑的成本。
3.2 算法选择:PPO、GRPO与DPO之争
在技术详情表中,RL算法一栏出现频率最高的是PPO、GRPO和DPO。它们代表了三种不同的技术路线。
PPO是深度强化学习的基石算法之一,以训练稳定著称。它的核心思想是通过限制每次策略更新的幅度,避免因单次更新过大而导致性能崩溃。在早期将RL应用于语言模型的尝试中,PPO是主流选择。然而,PPO的实现相对复杂,需要维护策略网络和价值函数网络,并且对超参数(如裁剪系数、优势估计的GAE参数)比较敏感。在资源受限或需要快速迭代的场景下,其复杂度可能成为负担。
GRPO可以看作是PPO在LLM场景下的一个高效变体。它通过一些简化(例如,省略价值函数网络,使用回报基线)来降低计算和实现复杂度。许多报告指出,GRPO在达到相近性能的同时,训练速度更快,内存占用更小。这正是为什么在AgentsMeetRL列表中,GRPO在新近的项目中采纳度非常高。对于大多数研究者来说,GRPO是一个很好的默认起点,它在性能和易用性之间取得了不错的平衡。
DPO走的是一条不同的路。它不依赖于一个独立的奖励模型,而是直接利用偏好数据(即“回答A比回答B更好”这类成对比较)来优化策略。DPO的训练更稳定,不需要在RL训练中平衡策略和奖励模型。因此,它在“对齐”任务中非常流行,例如让模型输出更无害、更诚实的回答。然而,DPO通常用于单轮生成任务,对于需要多步交互、动态奖励的复杂Agent任务,其适用性可能不如PPO/GRPO。
实操心得:对于新手,我建议从GRPO开始尝试。如果你的任务有明确的、可自动计算的奖励信号(如代码通过测试、数学答案正确),PPO/GRPO系列是首选。如果你的目标是优化模型输出的“风格”或“安全性”,并且有高质量的偏好数据,DPO值得考虑。在实际项目中,也可以组合使用,例如先用SFT初始化,再用GRPO进行功能强化,最后用DPO进行安全对齐。
3.3 奖励设计:智能体训练的“指挥棒”
奖励函数是RL训练的“指挥棒”,直接决定了Agent学习的方向。列表中的“奖励类型”一栏,揭示了社区是如何解决这个核心问题的。
外部验证器:这是最可靠、最客观的奖励来源。例如:
- 代码任务:使用编译器或单元测试框架。通过编译/测试得正分,否则得零分或负分。
- 数学任务:调用符号计算引擎(如SymPy)或数值求解器来验证答案的正确性。
- 搜索任务:根据最终答案与标准答案的匹配度(如F1分数、精确匹配)给分。 这种奖励的优点是信号清晰、无歧义。项目如
NeMo-RL、AReaL大量依赖此类奖励。
规则奖励:根据预先定义的规则计算奖励。例如,在Web导航任务中,每成功点击一个有效链接得+0.1分,最终到达目标页面得+1分。
SkillRL、Tree-GRPO等项目采用了这种方式。规则奖励的优势是可以设计稠密的中间奖励,加速学习。但难点在于规则设计需要深厚的领域知识,且设计不当容易导致Agent寻找规则漏洞(奖励黑客)。模型奖励:使用一个训练好的模型(通常是另一个LLM,即奖励模型或过程奖励模型PRM)来评估Agent的行为或中间思考过程并给出分数。例如,
Open-AgentRL和ReasonRAG就使用了PRM。这种方法非常灵活,可以应对规则难以形式化的复杂任务(如评估一段推理的逻辑性)。但它的挑战在于需要高质量的数据来训练奖励模型,且可能存在奖励模型过拟合或偏见的问题。混合奖励:最强大的方案往往是混合的。许多项目(如
OpenRLHF,ROLL)标注为“All”,意味着它们根据任务需要,灵活组合了多种奖励来源。一个常见的模式是:用外部验证器提供最终的结果奖励保证任务完成度,用规则或模型奖励提供过程奖励来引导高效的探索行为。
注意事项:奖励设计是RL训练中最具艺术性的部分。开始一个项目前,必须花大量时间思考:什么样的行为是应该鼓励的?奖励的稀疏度如何?是否存在奖励循环或黑客风险?一个实用的技巧是,先在少量环境实例上手动测试你的奖励函数,观察其是否与你的直观期望一致。
4. 典型应用场景与项目实战拆解
4.1 场景一:搜索与RAG智能体
搜索增强生成(RAG)是当前LLM落地的重要方向。但传统的RAG流程(检索->生成)是静态的。RL训练的智能体能让这个过程动态化、智能化。列表中的R1-Searcher、DeepResearch、ProRAG等项目是这一方向的代表。
以R1-Searcher为例,它的任务可能是回答一个复杂问题,比如“量子计算对密码学的中长期影响是什么?”。一个简单的RAG系统可能会一次性检索10篇相关文章,然后生成答案。但RL智能体可以学习一个多轮检索策略:
- 首轮生成一个搜索查询(如“量子计算 密码学 威胁”),进行检索。
- 阅读检索结果后,智能体判断信息是否足够或是否需要细化。
- 如果需要,生成新的、更具体的查询(如“Shor算法 RSA 破解 时间线”),再次检索。
- 重复此过程,直到智能体认为可以综合所有信息生成最终答案。
在这个过程中,RL的奖励可以设计为:最终答案的准确性(外部验证器打分)减去检索次数带来的惩罚(鼓励效率)。ProRAG项目更进一步,引入了双粒度优势和蒙特卡洛树搜索来训练过程奖励模型,让智能体不仅能学会“要不要继续搜”,还能学会“下一步该搜什么关键词更好”。
实操要点:
- 动作空间:通常是生成搜索查询语句。需要将其限制在合理范围内,避免生成无意义查询。
- 状态表示:需要将历史对话、已检索到的文档片段、当前问题有效编码,作为智能体的输入。
- 环境模拟:训练时需要模拟一个搜索引擎环境。可以使用离线网页库(如Google Natural Questions数据集)或调用搜索API的沙盒环境。
4.2 场景二:代码与软件工程智能体
这是RL大放异彩的另一个领域。目标通常是训练一个能根据自然语言描述编写、修改或调试代码的智能体。slime、prime-rl等项目聚焦于此。
这类任务有一个天然的优势:奖励信号极其明确且可自动化。代码可以通过编译吗?单元测试通过了吗?输出的结果符合预期吗?这些都可以作为完美的奖励。例如,在slime项目中,智能体需要解决编程竞赛题目。环境接收智能体生成的代码,将其提交给评测系统(一个外部验证器),根据通过测试用例的比例给出奖励。
更高级的设定会引入过程奖励。例如,除了最终通过测试,还可以为以下行为提供小奖励:
- 生成的代码包含了必要的导入语句。
- 代码中使用了恰当的数据结构(如用哈希表优化查找)。
- 智能体在“思考”过程中,正确分析了问题的时间复杂度。 这种细粒度的奖励能引导智能体学习更好的编程习惯和解题思路。
常见问题与排查:
- 奖励稀疏性:如果只在最终编译/测试成功时给奖励,初期学习非常困难。解决方案是引入“部分正确”奖励,例如,代码语法正确但逻辑错误,可以给一个小的正奖励。
- 探索效率低:代码空间巨大,随机生成有效代码的概率极低。通常需要用一个经过代码数据预训练的LLM作为策略网络的起点(即用SFT初始化),让智能体从一个“会写代码”的基线开始学习优化。
- 安全沙盒:执行未知代码存在巨大风险。必须使用完全隔离的沙盒环境(如Docker容器),并严格限制资源(CPU、内存、运行时间)。
4.3 场景三:Web与GUI操作智能体
让AI像人一样操作浏览器或桌面应用,是一个极具应用价值的方向。MobileAgent、InfiGUI-G1等项目致力于此。这里的核心挑战是将像素或UI结构信息转化为离散的动作序列。
以操作手机App为例,智能体观察到的“状态”可能是当前屏幕的截图或UI元素的层次结构树。它的“动作”可能是:点击某个坐标(x, y)、输入文本、滑动、返回等。RL的任务就是学习一个策略,将状态映射到动作,以完成“订外卖”、“发微博”等用户指令。
技术细节解析:
- 状态表示:直接使用原始像素作为输入(端到端)对计算资源要求高,且样本效率低。更常见的方法是使用一个预训练的视觉编码器(如ViT)或结合OCR技术,将屏幕信息转化为文本和空间位置的混合表示。
MobileAgent就采用了结合屏幕截图和UI布局信息的混合表示方法。 - 动作空间:动作空间通常是高维且组合性的。例如,一个点击动作需要横纵坐标两个维度。为了简化,许多工作会将屏幕划分为网格,或者只允许点击已被识别出的UI元素中心,从而将动作空间离散化。
- 奖励设计:奖励通常与任务完成度强相关。可以定义一系列子目标,例如:成功打开目标App (+0.1),找到搜索框 (+0.1),输入关键词 (+0.1),点击正确商品 (+0.2),完成支付 (+1.0)。这种分步奖励能有效引导学习。
- 环境仿真:在真实设备上训练成本高昂且缓慢。因此,需要构建高保真的模拟环境。Android有基于
uiautomator2的模拟器,Web则有Playwright或Selenium驱动的仿真环境。InfiGUI-G1很可能就构建了一套这样的GUI模拟训练框架。
踩坑记录:在GUI自动化项目中,最大的挑战之一是环境的非确定性和部分可观测性。网络延迟、弹窗广告、动态加载的内容都会导致状态变化,使得同一操作在不同时间点产生不同结果。解决方案包括:在状态表示中引入历史信息(如过去几步的截图);增加动作的鲁棒性(如重试机制);以及在奖励函数中容忍一些非关键性的中间错误。
5. 训练实施、问题排查与未来展望
5.1 训练流程与核心环节
基于RL训练一个LLM Agent,一个典型的流程如下,其中包含多个需要精心设计的环节:
环境搭建:这是第一步,也是奠定基础的一步。你需要一个能够接收Agent动作、返回新状态和奖励的模拟环境。对于代码任务,环境是一个代码执行沙盒;对于Web任务,环境是一个可控的浏览器实例。环境必须稳定、可重复,并且能快速重置。许多项目(如
LLM-in-Sandbox)将其环境开源,这是极好的参考。策略网络初始化:直接用随机权重的LLM开始RL训练几乎不可能成功。标准做法是使用一个在相关领域经过监督微调(SFT)的模型作为初始策略。例如,训练代码Agent,就用CodeLlama或DeepSeek-Coder进行SFT;训练Web Agent,就用包含网页操作指令数据微调过的模型。这为RL提供了一个高质量的起点。
数据收集与采样:启动训练后,Agent开始与环境交互,产生(状态,动作,奖励,新状态)这样的轨迹数据。这里的关键是采样效率。由于LLM推理成本高,如何用尽可能少的交互样本学到有效的策略至关重要。常用技巧包括:
- 重要性采样:重复利用旧策略的数据来更新新策略。
- 经验回放:存储历史轨迹,随机抽样用于训练,打破数据间的相关性。
- 分布式收集:并行运行多个环境实例,同时收集数据,这是加速训练的核心手段。
优势估计与策略更新:这是RL算法的核心。以PPO/GRPO为例,需要计算每个动作的“优势值”,即这个动作比平均情况好多少。然后根据优势值来更新策略网络参数,增加优势动作的概率,降低劣势动作的概率。这个过程需要仔细调整学习率、裁剪系数等超参数,以防止更新过大导致策略崩溃。
评估与验证:训练过程中需要定期在独立的验证集或测试环境上评估Agent的性能。不能只看训练奖励上升,因为Agent可能过拟合到训练环境或学会了“欺骗”奖励函数。一个健壮的评估应该包含多种任务实例,并采用人类评估或强自动化评估(如单元测试通过率)。
5.2 常见问题、陷阱与排查技巧
在实际操作中,你会遇到各种各样的问题。下面是一个基于经验的速查表:
| 问题现象 | 可能原因 | 排查与解决思路 |
|---|---|---|
| 奖励不上升,甚至下降 | 1. 学习率过高,策略更新不稳定。 2. 优势估计有偏(如GAE的λ参数不合适)。 3. 奖励函数设计有缺陷,信号太稀疏或噪声太大。 4. 初始策略太差,探索不到有效轨迹。 | 1. 大幅降低学习率,观察初期趋势。 2. 可视化优势值分布,检查是否合理。尝试调整λ。 3. 人工检查一些轨迹,看奖励是否与你的直觉相符。考虑增加过程奖励。 4. 强化SFT阶段,或引入课程学习,从简单任务开始。 |
| 奖励很快上升到很高,但实际任务表现很差 | 奖励黑客:Agent找到了绕过任务本质、直接最大化奖励的捷径。 | 1. 检查奖励函数逻辑漏洞。例如,代码任务中,Agent是否学会了输出一个永远返回True的测试? 2. 引入对抗性验证。在奖励中增加对“作弊”行为的惩罚。 3. 使用更复杂的、基于模型的奖励(PRM)来评估整体行为质量。 |
| 训练波动大,性能时好时坏 | 1. 批次大小(batch size)太小,梯度估计噪声大。 2. 环境或奖励存在随机性。 3. 策略更新裁剪系数(clip epsilon)设置不当。 | 1. 在内存允许范围内增大批次大小。 2. 在环境中固定随机种子,确保可复现性。评估时再引入随机性。 3. 适当减小裁剪系数,让更新更保守。 |
| 智能体行为单一,缺乏多样性 | 策略过早收敛到局部最优,探索不足。 | 1. 在策略损失中增加熵正则化项,鼓励探索。 2. 使用带噪声的动作选择,或在训练早期使用更高的采样温度。 3. 尝试不同的随机种子初始化。 |
| 训练速度极慢 | 1. LLM生成文本速度是瓶颈。 2. 环境交互(如启动浏览器、运行代码)耗时。 3. 数据收集与模型更新串行进行。 | 1. 使用量化、模型蒸馏等技术加速推理。 2. 优化环境,使用轻量级模拟或并行化环境实例。 3. 实现异步数据收集,让一个Worker专门负责与环境交互,另一个负责模型更新。 |
5.3 未来趋势与个人思考
纵观AgentsMeetRL列表的演进和其中项目的发展,我能清晰地看到几个未来趋势:
从单智能体到多智能体协作:列表新增“多智能体RL”类别绝非偶然。复杂任务(如软件项目开发、市场分析)需要多个具备不同技能的Agent分工协作。RL将用于学习它们之间的通信协议、任务分配和信用机制。
Claw-R1、ART等项目正在这个方向探索。奖励设计的自动化与学习化:手工设计奖励函数既费力又容易出问题。未来,更多工作会致力于让奖励模型本身也从数据中学习(逆强化学习),或者利用LLM本身作为奖励信号的提供者(LLM-as-a-Judge),使奖励函数更通用、更灵活。
与基础模型能力的更深度结合:当前的RL训练大多是在一个已经很强的SFT模型上进行“微调”。未来,可能会出现从预训练开始就融入RL信号的范式,让模型在最初学习世界知识时,就建立起“行动-结果”的关联性,孕育出真正的“行动者”思维。
仿真环境的逼真化与标准化:Agent能力的上限受限于训练环境。构建更丰富、更逼真、成本更低的仿真环境(如高保真的Web交互模拟器、物理机器人仿真)将成为关键基础设施。列表中的“环境”类别项目会越来越重要。
对我个人而言,从这份列表中获得的最大启发是:RL不再是RL专家的专属工具,它正在成为LLM应用工程师的标准技能包。以前我们调Prompt、做RAG,现在我们需要多思考一步:这个任务能否被定义为一个序列决策问题?能否设计一个自动化的奖励信号?如果能,那么引入RL很可能带来质的提升。
开始你的第一个RL智能体项目,不妨从选择一个成熟的基础框架(如veRL)、一个奖励信号明确的任务(如简单的数学题求解或代码补全)开始。不要追求一蹴而就,先搭建起“环境-智能体-训练”的最小闭环,看到奖励曲线有上升的趋势,你就已经成功了一大半。剩下的,就是在迭代中深入理解数据、算法和奖励之间微妙的相互作用,那正是这个领域最令人着迷的地方。