news 2026/4/23 13:03:46

领域数据优于教师知识:NLU模型蒸馏的关键发现

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
领域数据优于教师知识:NLU模型蒸馏的关键发现

领域数据优于教师知识:用于蒸馏NLU模型

会议:EMNLP 2022

相关出版物:Knowledge distillation transfer sets and their impact on downstream NLU tasks

知识蒸馏是一种将大型机器学习模型压缩至可管理大小的流行技术,使其适用于语音助手等低延迟应用。在蒸馏过程中,一个轻量级模型(称为学生模型)会在特定数据集(称为迁移集)上接受训练,以模仿源模型(称为教师模型)。迁移集的选择对生成高质量的学生模型至关重要,但如何进行选择远非易事。在自然语言理解应用中,教师模型通常在通用语料库上进行预训练,这可能与用于微调的特定任务语料库不同。这就引出了一个自然的问题:学生模型应该在通用语料库上进行蒸馏以学习高质量的教师预测,还是在更符合微调目标的特定任务语料库上进行蒸馏?

在提交给2022年自然语言处理经验方法会议的论文中,我们探讨了这个问题,并证明仅使用特定任务数据蒸馏的模型在其目标任务上的表现优于那些使用特定任务和通用数据混合进行蒸馏的模型。换句话说,在目标领域数据上进行蒸馏比单纯依赖教师知识能提供更好的性能。

然而,我们证实,即使是在混合数据上进行蒸馏也是有益的,学生模型的表现优于从头开始训练的同等规模模型。我们还研究了在教师模型完成预训练但尚未进行微调时进行蒸馏,这样只有学生模型会进行微调。我们发现,在蒸馏之前先让教师模型适应迁移集(这种成本更高的策略)能产生最佳的学生模型。

蒸馏多样性

在我们的实验中,我们使用通用数据和特定任务数据按三种不同比例混合,从一个大型多语言教师模型中蒸馏出一组多语言学生模型:

  • 比例1:仅通用数据(基线)
  • 比例2:7:3的通用数据与特定任务数据(模拟低资源场景)
  • 比例3:仅特定任务数据

那么,什么是通用数据和特定任务数据?通用数据通常是公开可用的、与任何特定任务无关的非标注数据。在未标注数据上进行模型训练通常涉及自监督学习;在我们的案例中,这意味着遮蔽文本中的单词并训练模型进行填充(遮蔽语言建模)。

特定任务数据是经过标注以指示任务正确执行的数据。在我们的案例中,我们探索了两个下游任务:领域分类和联合意图分类与命名实体识别,我们的特定任务数据也相应进行了标注。

我们在两种类型的测试集(testtail_test)以及四种感兴趣的语言(德语、法语、意大利语和西班牙语)上评估了我们的模型。test集包含完整的测试拆分,而tail_testtest中那些出现频率为三或更低的数据点子集。tail_test集允许我们衡量模型对在训练中罕见数据的泛化能力。

我们研究和评估的两个基线模型和四个实验模型的示意图。

我们所有的实验模型和基线模型都具有相同数量的参数。通用蒸馏基线是通过仅使用通用数据(比例1)蒸馏一个学生模型创建的。直接预训练基线是使用通用数据从头开始预训练,然后在特定任务数据上进行微调。

我们创建了四个蒸馏后的学生编码器,其中两个直接使用比例2和比例3的数据集进行蒸馏。其余两个以相同方式创建,但教师在蒸馏前使用特定任务数据集各进行了一百万步的微调。这使得我们能够对教师适应目标任务的情况进行基准测试。

在评估领域分类和联合意图分类与命名实体识别任务性能时,我们为每个编码器添加了一个相应的解码器。相对于基线,F1分数的变化被用作领域分类的改进指标,语义错误率的变化被用作联合意图分类与命名实体识别的改进指标。

针对通用蒸馏基线的每种蒸馏编码器和每种语言的百分比改进(领域分类任务)。F1分数变化正向表示更好。

联合意图分类与命名实体识别任务的结果。在这种情况下,负向表示更好。

在领域分类任务上,我们的结果表明,当迁移集中包含特定任务数据时,各方面都有改进,其中仅使用特定任务数据带来的改进最大。在联合意图分类与命名实体识别任务中,我们看到了类似的结果,仅使用特定任务数据蒸馏的编码器改进更大。

致谢:我们要感谢论文的共同作者对此工作的贡献。

研究领域

  • 对话式AI
  • 机器学习

标签

  • 知识蒸馏
  • 自然语言理解
  • EMNLP
    更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
    对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/22 2:20:39

PD-1功能抗体原料在免疫治疗中有何关键作用?

一、PD-1功能抗体原料具有怎样的生物学特性与治疗机制? PD-1功能抗体原料是指用于制备程序性死亡受体-1(PD-1)或程序性死亡配体-1(PD-L1)抑制剂的生物活性物质,其核心功能是通过阻断PD-1/PD-L1信号通路&am…

作者头像 李华
网站建设 2026/4/23 12:54:30

springboot校园一卡通学生饭卡管理系统

目录系统概述核心功能技术架构创新点应用价值开发技术源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!系统概述 SpringBoot校园一卡通学生饭卡管理系统是基于SpringBoot框架开发的数字化管理平台,旨在实现学生饭卡的统一管理…

作者头像 李华
网站建设 2026/4/23 8:19:31

校园跑腿系统(源码+数据库+文档)

校园跑腿 目录 基于springboot vue校园跑腿系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue校园跑腿系统 一、前言 博主介绍:✌️大…

作者头像 李华
网站建设 2026/4/22 19:15:09

全网最全8个AI论文软件,自考学生轻松搞定毕业论文!

全网最全8个AI论文软件,自考学生轻松搞定毕业论文! AI工具如何让论文写作不再难 在自考学习的道路上,毕业论文往往是最让人头疼的一关。从选题、大纲搭建到内容撰写、查重降重,每一个环节都可能成为阻碍前行的障碍。而随着人工智能…

作者头像 李华
网站建设 2026/4/23 8:21:14

基于springboot + vue大学生就业招聘系统(源码+数据库+文档)

大学生就业招聘 目录 基于springboot vue大学生就业招聘系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue大学生就业招聘系统 一、前言 博主介绍…

作者头像 李华
网站建设 2026/4/23 8:22:57

文献综述无从下手?这8款AI神器带你轻松突围,百考通AI全程助攻!

对于大多数本科生而言,论文写作中最令人头疼的环节莫过于文献综述。它远不止是简单的文献堆砌,而是需要梳理研究脉络、提炼核心观点、找准研究空白的系统性工程。面对海量文献无从筛选、脉络梳理混乱、格式反复出错等痛点,许多同学只能熬夜苦…

作者头像 李华