news 2026/6/10 11:59:18

启用 FlashAttention 的令牌压缩 “表象移动 “的工作原理和效果

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
启用 FlashAttention 的令牌压缩 “表象移动 “的工作原理和效果

摘要

本文提出了一种新方法来应对变压器模型计算成本增加的挑战。

近年来,变换器已被广泛应用于自然语言处理和图像/视频理解领域,但随着规模的扩大,处理效率已成为一个严重问题,因为自我注意机制的计算复杂度与输入词块数量的平方成正比增长。

传统上,人们试图从两个方向解决这一问题。

一种是以 FlashAttention 为代表的内存效率方法,另一种是基于标记压缩的计算量减少方法。

然而,标记压缩通常与 FlashAttention 等不建立注意力图谱的机制不兼容,因为它使用注意力图谱来估计标记的重要性。

因此,作者提出了一种新的指标–表征偏移。这可以衡量每个标记在通过各层时的表征发生了多大变化,也是定义重要性的一种方法。

该指标无需训练,与模型无关,可与 FlashAttention 结合使用。

实验结果表明,这种方法在效率和准确性方面都优于传统方法,推理速度提高了 5.5 倍。

建议的方法

所提出的方法 “表征偏移”(Representation Shift)可以测量每个标记在层的输入和输出中的嵌入表征之间的差异,从而量化标记在模型中被增强了多少信息。

具体来说,计算向量通过 MLP 层和注意力层前后的距离,并将此值作为重要性得分。L2 准则在测量距离方面表现最为稳定。

传统方法依赖于注意力图谱,而这种方法可以独立于注意力机制来估计标记的重要性,因此可以自然地与不构建注意力图谱的计算方法(如 FlashAttention)相结合。

该框架还具有足够的通用性,不仅适用于 Transformer,还适用于 CNN 和状态空间模型 (SSM)。

作者还详细研究了设计选择,如在哪一层测量表征偏移,以及基于哪种操作(注意力或 MLP)。
结果表明,使用 MLP 层的变化量最为有效。

这种设计可以将信息损失降到最低,同时消除标记冗余。

实验

作者对图像分类和视频理解任务进行了广泛的实验,以测试所提方法的有效性。

首先,在视频任务中,使用无掩码教师(UMT)对视频文本检索和视频质量保证进行了评估,每层标记减少了 20%。

结果表明,与现有的基于注意力分数的方法相比,表征转移与 FlashAttention 的结合更快、更准确,吞吐量最多提高了 5.5 倍。

与单纯的模型微型化相比,它还能更好地权衡速度/准确性。

接下来,使用 DeiT 序列在 ImageNet 上对图像分类进行了验证,与 FlashAttention 相结合,推理速度提高了 1.2 倍,同时准确率也高于传统的基于注意力的方法。

它还被应用于 CNN/SSM,如 ResNet 和 Vision Mamba,其有效性在这些非基于变换器的架构中得到了证实。

特别是,在 ResNet-50 上逐行标记剪枝的速度提高了 18% 以上,并在很大程度上保持了准确性。

这些实验表明,表征转换是一种通用而强大的标记压缩标准。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 21:37:22

2025年降AI率工具实测!7个降AI工具实测推荐:免费降AIGC工具使用指南

市场上的降AI率工具良莠不齐,如何科学判断降AI率效果是很多学生、老师最关心的问题,担心降不来AI率,耽误时间还花不少钱。 本文将从以下五个维度系统,分析2025年主流的8个降AI工具,教大家如何选择适合自己的降AIGC工具…

作者头像 李华
网站建设 2026/6/9 23:45:45

python-uniapp微信小程序的大学生兼职推荐系统的设计与实现_ly2blc52

文章目录系统截图项目技术简介可行性分析主要运用技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!系统截图 python-uniapp_lyblc52 微信小程序的大学生兼职推荐系统的设计与实现 项目技术简介 Python…

作者头像 李华
网站建设 2026/6/10 13:56:39

学生近视呈高发、低龄化青少年近视需早干预

在一二年级的课堂上,就能看到不少孩子鼻梁上架着小眼镜;小区里玩耍的孩子中,一半以上都带着近视镜,甚至有些幼儿园大班的孩子,已经需要借助眼镜才能看清远处的滑梯。相关数据显示,我国青少年近视率持续攀升…

作者头像 李华
网站建设 2026/6/10 13:56:40

明天就要交稿!知网AIGC查重90%怎么办?1小时急救方案来了

市场上的降AI率工具良莠不齐,如何科学判断降AI率效果是很多学生、老师最关心的问题,担心降不来AI率,耽误时间还花不少钱。 本文将从以下五个维度系统,分析2025年主流的8个降AI工具,教大家如何选择适合自己的降AIGC工具…

作者头像 李华
网站建设 2026/6/10 1:17:19

7个免费网站帮你降低论文AI率,通过维普AIGC查重,亲测有效

市场上的降AI率工具良莠不齐,如何科学判断降AI率效果是很多学生、老师最关心的问题,担心降不来AI率,耽误时间还花不少钱。 本文将从以下五个维度系统,分析2025年主流的8个降AI工具,教大家如何选择适合自己的降AIGC工具…

作者头像 李华
网站建设 2026/6/10 13:58:23

22、Linux 系统的文件归档备份与正则表达式使用

Linux 系统的文件归档备份与正则表达式使用 1. 文件归档与备份 在 Linux 系统中,文件的归档和备份是非常重要的操作。 rsync 是一个强大的工具,它能够检测文件的变化并仅复制更新的文件。 1.1 使用外部硬盘进行备份 假设我们有一个外部硬盘,挂载在 /media/BigDisk 。…

作者头像 李华