news 2026/4/23 12:29:03

OctoThinker 通过改进 Llama 来支持强化学习,展示了中间学习的威力

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
OctoThinker 通过改进 Llama 来支持强化学习,展示了中间学习的威力

概述

本文是一项研究,旨在强调中期训练(mid-training)在使 Llama 等一般基础模型通过强化学习(RL)获得高级推理能力方面的有效性。我们特别关注了基于 Qwen 的模型和基于 Llama 的模型在 RL 扩展行为上的差异,探讨了造成这种差异的原因,并提出了提高 Llama 模型 RL 性能的学习策略。

研究的重点是一种名为 "稳定-然后衰退 "的两阶段中期训练策略。第一阶段通过稳定学习培养稳健的推理能力,而第二阶段则使用不同类型的数据(短思维过程、长思维过程及其混合物)生成多分支(分支)模型。

因此,这套名为 OctoThinker 的新模型的性能可与 Qwen2.5 等 RL 友好型模型相媲美,并表明 RL 扩展甚至对 Llama 系列也是可行的。我们还建立并发布了一个大型数学推理语料库–MegaMath-Web-Pro-Max,为今后的研究奠定了基础。

建议的方法

我们提出了一种两阶段的中期训练策略–“稳定-衰减”(Stable-then-Decay),用于将不适合 RL 的模型(如 Llama)转化为 RL 可扩展的基础模型。

在第一阶段,即 "稳定 "阶段,使用 200B 个高质量数学数据(如 MegaMath-Web-Pro-Max)以恒定的学习率进行稳定的预训练。这一阶段是模型基本推理能力和数学知识的基础。

第二阶段为 "衰减 "阶段,学习速度逐渐减慢,并输入不同性质的数据(如短思维链、长思维链以及两者的混合),从而使模型的性质发生变化,并培养出多种推理风格。这一过程被命名为 “章鱼思维”,因为它像章鱼的多臂一样,向多个方向展开。

此外,在这一过程中,还对质量保证格式数据和指令跟踪数据的比例和组合进行了精细控制,并详细评估了每种数据的影响。此外,还设计了反应时长控制调度程序和提示模板,以稳定 RL 训练。

实验

实验以 Llama 和 Qwen 作为比较对象,以确定学习行为和 RL 性能的差异。初步观察结果表明,Qwen 模型在逐渐增加答案长度的过程中表现出稳定的性能提升,而 Llama 模型则表现出异常的学习行为,例如在过程中一直迭代到答案达到最大长度(4096 个字节)。

为了解决这个问题,作者对 Llama 采用了上述两阶段的中期训练。在第一阶段,在高质量数据(主要是 MegaMath-Web-Pro-Max)上进行了 200B 标记的稳定训练,然后在三种数据配置上进行了分支训练:短 CoT、长 CoT 和混合。

然后,在相同条件下对每个模型进行 RL 训练,并在 14 个数学推理基准测试中进行性能评估,包括 MATH500、GSM8K、OlympiadBench 和 AMC23。结果表明,OctoThinker 的每个分支模型的性能都比原始 Llama 高出 10-20%,尤其是在 "长 "分支中,其性能可与 Qwen2.5 相媲美。

通过这种方式,量化了中期训练策略对 RL 性能的影响,并证明了在 Llama 系列中可以实现高性能的 RL 适应。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/21 19:31:15

AI邮件助手:颠覆传统邮件处理的智能革命

AI邮件助手:颠覆传统邮件处理的智能革命 【免费下载链接】ai-collection The Generative AI Landscape - A Collection of Awesome Generative AI Applications 项目地址: https://gitcode.com/gh_mirrors/ai/ai-collection 每天面对堆积如山的邮件&#xff…

作者头像 李华
网站建设 2026/4/23 11:10:52

云手机应用行业分析

云手机是一种基于云计算技术的虚拟手机服务,它在云端运行完整的 Android 系统,用户通过客户端(如 App 或网页)远程连接并操作这台“手机”。与实体手机不同,云手机不受本地硬件限制,具备高弹性、高安全性、…

作者头像 李华
网站建设 2026/4/23 9:52:05

23、Fedora系统管理:用户组、打印与系统监控全解析

Fedora系统管理:用户组、打印与系统监控全解析 1. 用户组管理 在系统中添加用户到组,可按以下步骤操作: 1. 点击“Group Users”选项卡,该选项卡的下拉列表包含系统中所有已配置的用户(包括隐藏的系统用户),勾选要添加到组的用户。 2. 点击“OK”应用更改,新添加的…

作者头像 李华
网站建设 2026/4/23 11:27:19

26、打造无线接入点与共享打印机全攻略

打造无线接入点与共享打印机全攻略 在当今数字化的时代,网络连接和设备共享变得至关重要。本文将详细介绍如何创建自己的无线接入点以及如何设置 Samba 打印服务器,让你的网络使用更加便捷和高效。 自制无线接入点的十个步骤 要自制一个无线接入点,需要完成一系列的配置和…

作者头像 李华
网站建设 2026/4/23 11:27:20

28、重新引入 Samba:实现 Linux 与 Windows 设备间的文件共享

重新引入 Samba:实现 Linux 与 Windows 设备间的文件共享 Samba 软件包不仅能让 Linux 系统与网络中的 Microsoft Windows 客户端共享本地打印机,还能轻松实现 Linux 和 Windows 设备之间的文件夹和文件共享。Samba 允许在 Linux 系统上定义文件夹,并将其在 Microsoft 网络…

作者头像 李华