news 2026/4/23 18:04:22

如何科学地“设计”SFT 数据?一次关于 ODA 的完整平台级验证

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
如何科学地“设计”SFT 数据?一次关于 ODA 的完整平台级验证

在大模型后训练阶段,SFT(监督微调)数据的构建至关重要。然而,长期以来,这一过程业界的通行做法往往依赖“直觉”或“试错”,即多收一点、再筛一轮、训一次模型、看下效果,然后再调整。这个过程不仅成本高昂,而且很难回答一个根本性问题——哪些数据是真的“有用”的,为什么?

为了摆脱“盲盒式”微调,急需建立一套科学的数据效能评估方法,用以成为数据生产的“指南针”。

日前,上海人工智能实验室 OpenDataLab 团队发布最新技术报告 《Closing the Data Loop: Using OpenDataArena to Engineer Superior Training Datasets》(arXiv: https://arxiv.org/pdf/2601.09733)。基于 OpenDataArena 项目所提供的数据多维价值分析,团队提出了一种全新的范式:利用 OpenDataArena (简称“ODA”) 的评测反馈,将数据集构建从“随机艺术”转变为“确定性的工程” 。

1. 从“评测看结果”到“评测参与生产”

传统的 SFT 流程,本质上是一个开环系统:数据收集 → 模型训练 → 评测分析。评测往往只发生在最后,用来“看效果好不好”,却很少反向影响数据本身的构造逻辑。这也是为什么数据调优经常变成“黑盒试错”。

ODA 的核心设计目标,是把这条链路真正闭合起来。在这篇报告中,OpenDataLab团队将 ODA 的工作流完整跑通为一个闭环过程:评测 → 排名 → 数据工程 → 再评测。

这里的关键变化在于:评测不再只是一个分数,而是被明确用作数据筛选与配比的决策信号;排行榜不再只是模型展示,而是用于衡量不同数据源在特定能力上的真实贡献。这一步,使得数据构造第一次具备了工程意义上的“可解释性”和“可复现性”。

2. 一次平台级验证:ODA 能不能真的“指导造数据”?

为了避免引入额外假设,团队在实验中严格遵循一个原则来构造数据:数据构造过程尽可能只依赖 ODA 提供的评测与工具信号。

(一)数学推理场景:ODA-Math-460k

在数学推理任务中,我们完全通过 ODA 跑通了一条工程化的数据构造路径。

首先是数据源选择。不再凭经验判断“哪些数学数据集可能有用”,而是直接利用 ODA 的跨模型评测结果,对现有数学数据集进行横向比较,从中筛选出在数学能力上真实有效的数据源,将表现最佳的20个数学数据集快速聚合成一个包含1140 万样本的初始数学问题池。

接下来是数据筛选与压缩。ODA-Tool 提供了极其丰富的多维评估器,能够从复杂度、多样性、语义分布、奖励模型评分等多个维度对数据价值进行深度剖析。我们系统比较了不同筛选信号在数学场景下的效果,实验发现,相比传统的复杂度或启发式指标,基于模型表现的 pass-rate 信号更能反映模型的“学习前沿”,也更有利于预测训练收益。

在这一标准的指导下,团队剔除了模型已经熟练掌握的简单样本,同时避免引入不可解或噪声数据,最终将数据池从千万级工程化压缩到46 万条高信息密度样本。尽管规模缩小了 25 倍,但每一条留存数据都处于模型的“黄金学习区”,具有极高的信息增量。

整个过程不是一次性调参,而是严格遵循 ODA 的评测反馈再评测的闭环完成的。

(二)通用混合全域场景:ODA-Mixture 的构造逻辑

在通用能力场景中,ODA 的作用更接近一个“数据调度系统”。面对海量候选数据,ODA 提供了一个关键视角:

用数据效率(Data Efficiency)衡量单位样本带来的模型收益。

基于 ODA 的总榜单,我们发现一些体量极小的数据集,比如 LIMO,在多个模型上的单位增益显著高于常规大规模数据。这类数据自然成为混合集的“锚点底座”

同时,而针对锚点可能覆盖不足的能力维度,我们不再盲目扩充数据规模,而是直接通过 ODA 的子领域榜单,定位到对应能力最有效的数据来源,进行定向补充。具体来说,预算受限时,调度“难度优先采样”策略。利用 ODA-Tool 进行聚类后,在每个簇内优先抽取长思维链样本,通过重尾分布强行拉升模型的逻辑深度;而当目标是刷新 ODA 榜单天花板时,切换为“多样性感知采样”。ODA-Tool 此时的任务是确保语义空间的全覆盖,通过平衡采样消除特定分布带来的偏见 。

数据“加什么、不加什么、加多少”,都由评测信号直接驱动,而非经验判断。整个过程采用的“锚点+补丁”策略,思想极为简单,而且实现也非常方便,为数据构造提供了轻量化的一条路径。

3. 结果并非终点,评估驱动的闭环才是持续进化的关键

通过ODA 闭环工程化流程的引入,为 SFT 数据构建带来了实质性的效率飞跃。比如ODA-Math-460k仅用不到一半的数据量,便超越了 1.2M 规模的 OpenThoughts-3,并在 AIME、HMMT 等高难度基准上取得了非常领先的结果。ODA-Mixture-100k/500k 更是在18+ 综合评测中取得了显著的优势,超过现有 SOTA 结果 5 个点以上,实现了“数据全能王”的特性。特征聚类分析显示,ODA 引导的采样策略比传统的启发式筛选拥有更均衡、更广阔的语义覆盖面 。这些结果非常好的证明了 ODA 平台能够带来的数据评估、数据构造的优势。

但这篇报告更重要的结论并不在于模型取得的具体 SOTA 结果,而在于验证了 ODA 作为一个平台,确实可以稳定地支撑引导高质量 SFT 数据的生产。这意味着,SFT 数据构造不必再完全依赖经验和反复试错;数据规模不再是唯一变量;评测可以成为数据工程中的“控制信号”。

写在最后

相比于发布数据本身,跑通标准化且可复用的数据工程链路才是报告所展示的研究意义所在。OpenDataLab团队希望通过 ODA 助力社区跨越“经验式收集”阶段,步入“精准化设计”时代,将 SFT 数据构建转化为一项逻辑透明、效能可控的科学工程任务

资源下载:

  • 技术报告:https://arxiv.org/pdf/2601.09733

  • ODA-Tool 自动化工具箱:https://github.com/OpenDataArena/OpenDataArena-Tool

  • 开源数据集(ODA-Math/Mixture):https://huggingface.co/datasets/OpenDataArena

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 16:16:40

基于YOLOv5的作弊行为检测系统,Python和pycharm实现,可实时检测

基于YOLOv5的作弊行为检测系统,Python和pycharm实现,可实时检测,有方便操作的图形化界面考场里转笔的手速再快,也快不过AI的识别速度。今天咱们来搞点有意思的——用YOLOv5做个能实时抓作弊行为的系统,重点在于手部异常…

作者头像 李华
网站建设 2026/4/23 17:49:52

【流程思维】五、重要根源: 穿透表象,重塑系统

导读:企业困境源于系统而非个人。通过“衬衫工厂”等案例,揭示局部优化、思维固化、部门壁垒等“空白格”如何侵蚀整体效能。本章引导读者穿透表象,从现金流、回流等现象溯源至流程设计、激励机制等根本病因,实现从“灭火”到“改…

作者头像 李华
网站建设 2026/4/23 16:28:43

基于Spring Boot的企业网盘的设计与实现(任务书)

本科毕业论文(设计)任务书 学院:数学与数据科学学院 学生姓名 专业班级 信计212 学号 校内指导教师姓名 职称/职务 副教授 签名 校外指导教师姓名 职称/职务 工程师 签名 论文题目 基于Spring Boot的企业网盘的设计与实现 起始日期 2024-9 ~ 2025-5 一、论文(设计)的基…

作者头像 李华
网站建设 2026/4/23 14:38:48

智慧果园苹果病虫害检测系统(YOLO + DeepSeek 双模型 Web 管理系统) YOLO+Deepseek双模型web管理系统 前端:HTML5/CSS3/JS/Bootstrap 5 后端:

深度学习框架YOLODeepseek双模型web管理系统(带数据集完整代码) 核心 ✔️ 多种常见病害精准识别,支持图片/视频/摄像头检测,识别效率拉满,并接入deepseek模型给出个性化防治方案 ✔️ 带数据管理功能:检…

作者头像 李华
网站建设 2026/4/23 13:16:13

基于java+ vue旅游指南系统(源码+数据库+文档)

旅游指南 目录 基于springboot vue旅游指南系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue旅游指南系统 一、前言 博主介绍:✌️大…

作者头像 李华
网站建设 2026/4/22 23:33:27

Collagen IV抗体在肝纤维化诊断中有何关键作用?

一、肝纤维化进程中细胞外基质发生何种重塑? 肝纤维化是慢性肝病进展中的关键病理过程,其特征为肝脏内细胞外基质的过度沉积与异常重构。在正常生理状态下,肝脏细胞外基质保持着精细的动态平衡,主要由IV型胶原、层粘连蛋白、蛋白…

作者头像 李华