SRPO：仅用10%训练步数，数学代码推理双突破-深圳市維司達科技有限公司

SRPO：仅用10%训练步数，数学代码推理双突破

【免费下载链接】SRPO-Qwen-32B项目地址: https://ai.gitcode.com/hf_mirrors/Kwaipilot/SRPO-Qwen-32B

导语

最新研究表明，名为SRPO的新型强化学习框架在数学推理和代码生成两大核心任务上实现突破，仅需传统方法十分之一的训练步数，性能便超越了DeepSeek-R1-Zero-32B等现有模型。

行业现状

随着大语言模型在专业领域应用的深入，数学推理与代码生成已成为衡量模型能力的关键指标。然而，当前主流模型普遍面临训练成本高昂、跨领域能力难以兼顾的挑战。据行业数据显示，顶尖模型的训练往往需要数千GPU小时，且在数学或代码单一领域表现优异的模型，在另一领域常出现性能折损。

产品/模型亮点

SRPO-Qwen-32B基于Qwen2.5-32B基座模型开发，其核心创新在于"两阶段历史重采样策略优化"框架。该框架通过两大技术突破实现效率跃升：

首先是两阶段跨域训练范式，第一阶段专注数学数据训练以培养深度推理能力，第二阶段引入代码数据实现技能融合。这种设计有效解决了数学长推理链与代码简洁表达之间的训练冲突。

更关键的是历史重采样(HR)技术，通过过滤"过于简单"的样本，保留提供有效梯度信号的"信息性"样本，使训练效率提升近10倍。实验数据显示，在AIME24数学 benchmark上，SRPO达到50.0%的Pass@1准确率，在LiveCodeBench代码任务上达到41.6%，双双超越DeepSeek-R1-Zero-32B。

该图表清晰展示了SRPO在数学推理任务上的效率优势。当训练步数仅为DeepSeek的10%时，SRPO的准确率已实现反超，且持续攀升趋势明显，印证了其训练方法的高效性。

另一项突破性发现是模型展现出的类人认知行为。训练过程中，SRPO自发形成了自我反思、修正和回溯等高级推理模式，甚至会用代码验证数学解，实现跨领域技能的有机结合。

这组趋势图记录了SRPO在训练中逐渐发展出的复杂推理行为。随着训练推进，模型使用"再检查"、"犹豫"等反思性词汇的频率显著增加，表明其正在形成类似人类解决复杂问题时的思维模式。

行业影响

SRPO技术路径的成功验证了"方法论创新优于资源堆砌"的可能性。对于企业而言，这意味着可以用更低的计算成本开发高性能模型，尤其利好算力资源有限的研究机构和中小企业。在应用层面，该技术有望推动AI在科学计算、工程开发等专业领域的普及，加速研发流程。

值得注意的是，SRPO在代码生成领域同样表现出色。在LiveCodeBench基准测试中，其性能曲线呈现独特的"第二阶段跃升"现象，表明两阶段训练策略对代码能力培养的有效性。

该图揭示了SRPO在代码任务上的独特学习模式。在第二阶段引入代码训练数据后，模型准确率出现陡峭上升，显示出前期数学推理训练为代码能力打下了坚实基础，验证了跨领域能力迁移的可行性。

结论/前瞻

SRPO框架的提出为大模型训练提供了新范式，其"少即是多"的高效训练理念可能引领行业从"算力竞赛"转向"方法创新"。随着技术迭代，我们有理由期待更高效、更智能的AI系统出现，在保持高性能的同时大幅降低计算资源消耗。对于开发者和企业而言，关注这类方法论创新将成为获取竞争优势的关键。

【免费下载链接】SRPO-Qwen-32B项目地址: https://ai.gitcode.com/hf_mirrors/Kwaipilot/SRPO-Qwen-32B

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

3分钟掌握Windows文件秒开神器：QuickLook高效预览全攻略

3分钟掌握Windows文件秒开神器：QuickLook高效预览全攻略【免费下载链接】QuickLook Bring macOS “Quick Look” feature to Windows 项目地址: https://gitcode.com/gh_mirrors/qu/QuickLook 还在为频繁双击打开文件而浪费时间吗？想要实现一键预…

李华

小模型大能量！DeepSeek-R1推理模型1.5B高效版发布

小模型大能量！DeepSeek-R1推理模型1.5B高效版发布【免费下载链接】DeepSeek-R1-Distill-Qwen-1.5B DeepSeek-R1-Distill-Qwen-1.5B：基于大规模强化学习与预训练的深度模型，具备卓越推理能力，支持数学、编程等领域任务。经蒸馏后模…

李华

Qwen3-0.6B-FP8：0.6B参数开启智能双模新体验

Qwen3-0.6B-FP8：0.6B参数开启智能双模新体验【免费下载链接】Qwen3-0.6B-FP8 Qwen3 是 Qwen 系列中最新一代大型语言模型，提供全面的密集模型和混合专家 (MoE) 模型。Qwen3 基于丰富的训练经验，在推理、指令遵循、代理能力和多语言支持方面取…

李华

LLM开发工程师终极成长指南：从零基础到高薪岗位的完整路径

LLM开发工程师终极成长指南：从零基础到高薪岗位的完整路径【免费下载链接】llm-cookbook 面向开发者的 LLM 入门教程，吴恩达大模型系列课程中文版项目地址: https://gitcode.com/datawhalechina/llm-cookbook 在AI技术快速发展的今天&#xff0…

李华

数字山水画创作秘籍：5步掌握Shan-Shui-Inf实战宝典

数字山水画创作秘籍：5步掌握Shan-Shui-Inf实战宝典【免费下载链接】shan-shui-inf 项目地址: https://gitcode.com/gh_mirrors/sh/shan-shui-inf 想要创作独具东方韵味的数字山水画却苦于无从下手？Shan-Shui-Inf这款程序化生成工具就是你的艺术…

李华

AndroidGen-GLM-4：AI自主操控安卓应用的黑科技

AndroidGen-GLM-4：AI自主操控安卓应用的黑科技【免费下载链接】androidgen-glm-4-9b 项目地址: https://ai.gitcode.com/zai-org/androidgen-glm-4-9b 导语：智谱AI发布开源大模型AndroidGen-GLM-4-9B，首次实现大语言模型驱动的智能体…

李华