news 2026/5/13 23:25:53

2025ICLR-Honorable Mentions-DATA SHAPLEY IN ONE TRAINING RUN

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
2025ICLR-Honorable Mentions-DATA SHAPLEY IN ONE TRAINING RUN

文章核心总结与创新点

主要内容

本文针对传统Data Shapley在大规模模型中存在的计算效率低、无法评估特定训练过程数据贡献的问题,提出了In-Run Data Shapley方法。该方法无需重复训练模型,通过在单次训练过程中累加各梯度更新迭代的Shapley值,实现对数据贡献的高效评估。文章通过理论推导(泰勒展开近似)和技术优化(幽灵点积、幽灵梯度-海森-梯度积技术),使方法在基础模型预训练场景中具备可行性,并通过实验验证了其在数据筛选、训练阶段贡献分析、生成式AI版权相关研究中的应用价值。

创新点

  1. 概念创新:提出In-Run Data Shapley,首次实现对特定训练过程的数据贡献评估,突破传统方法针对通用学习算法的局限,贴合实际部署需求。
  2. 效率优化:基于泰勒展开将全局效用分解为单迭代局部效用,结合“幽灵”系列技术,在单次训练中完成计算,一阶近似与常规训练耗时接近,二阶近似仅增加一倍耗时,远超传统方法效率。
  3. 应用拓展:首次将数据归因应用于基础模型预训练,揭示数据贡献的阶段依赖性、高质量数据集仍存在16%低价值数据等新洞察,为数据筛选和生成式AI版权分配提供理论支持。

翻译部分(Markdown格式)

Abstract

数据沙普利(Data Shapley)提供了一个原

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/12 0:30:15

Tang-Nano-1K的rPLL

led.v module led #(parameter P_CLK_FREQ_MHZ 27, // 时钟频率,单位MHz,默认50MHzparameter P_DEBOUNCE_MS 20, // 消抖时间,单位ms,默认20msparameter L_CNT_WIDTH 32 // 需要外部计算后传入 ) (input wire i_…

作者头像 李华
网站建设 2026/5/12 3:54:50

从零实现ESP32固件库下载并配置WiFi通信

手把手教你配置ESP32开发环境并实现WiFi联网 你是不是也曾在搜索“esp32固件库下载”时,被五花八门的教程搞得一头雾水?明明照着步骤一步步来,结果Arduino IDE就是不认ESP32;好不容易装上了,烧录又失败;连…

作者头像 李华
网站建设 2026/5/13 22:34:59

开源大模型新选择:anything-llm助力高效知识管理

开源大模型新选择:AnythingLLM助力高效知识管理 在企业文档越积越多、信息检索越来越低效的今天,一个工程师想找三个月前某次会议中提到的技术方案细节,翻遍邮件和笔记仍一无所获;一位研究员需要从上百篇PDF论文中提取共性结论&am…

作者头像 李华
网站建设 2026/4/23 12:35:26

几行代码构建AI智能体:Strands Agents模型驱动开发实战

1️⃣ 项目概览 Strands Agents 是一个采用模型驱动方法的 Python SDK,旨在简化 AI 智能体的构建与运行。它解决了开发者构建智能体时面临的复杂性高、模型绑定、工具集成难等痛点。 核心价值:通过几行代码,即可从简单的对话助手扩展到复杂的…

作者头像 李华
网站建设 2026/4/30 15:07:31

LangFlow生成的技术博客能否替代人工写作?实测分析

LangFlow生成的技术博客能否替代人工写作?实测分析 在大模型如火如荼的今天,越来越多开发者和内容创作者开始思考一个现实问题:我们是否还需要亲自动手写技术文档?当一套拖拽式工具就能自动生成结构完整、术语规范的技术文章时&am…

作者头像 李华