news 2026/6/9 23:09:44

为什么视频生成稀疏注意力做不好?中科院自动化所最新提出稀疏注意力纠偏新范式

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
为什么视频生成稀疏注意力做不好?中科院自动化所最新提出稀疏注意力纠偏新范式

作者:Zhikai Li
原文:https://mp.weixin.qq.com/s/8SViawyGjoHKhbW0qWtuYA

生成式视频模型正以前所未有的速度进化,从数秒短片拓展至长时段叙事,从模糊低清跃升至逼真4K。

然而,随着视频时长和空间分辨率的提升,序列长度急剧增加,二次复杂度的注意力计算量随之飙升,即便采用 FlashAttention 等高效优化,推理延时仍然难以遏制。

以生成一段 720p、5 秒的视频为例,单是注意力计算就需要耗时数十分钟。炫目的生成质量因此被漫长的等待所拖累,限制了真实应用的落地。

为此,中科院自动化所研究团队提出了Rectified SpaAttn校正式稀疏注意力,它从理论上揭示了传统稀疏注意力存在的系统性偏差,并据此构建出一种更快、更稳的稀疏注意力新范式。

通过校正稀疏注意力,使其分布更贴近真实注意力,Rectified SpaAttn能在更高稀疏率下依然保持卓越的生成质量,将视频生成中注意力稀疏化加速的潜能进一步推向极限。

论文地址:https://arxiv.org/abs/2511.19835
项目地址:https://github.com/BienLuky/Rectified-SpaAttn

为什么稀疏注意力做不好?不是“不够精确”,而是“存在偏差”

为了加速注意力计算,稀疏注意力通常只保留少量关键 tokens 的运算,忽略大部分非关键 tokens,以此降低计算量。

为了让稀疏注意力更接近真实注意力,传统方法大多从重排序或重要性评估入手,力图更精准地挑选应当保留的关键 tokens,从而最大化信息保留。

然而,理论分析表明,这类以“精确选择”为核心的稀疏注意力方法存在两类系统性偏差,如下图所示。

  1. 关键 tokens 的注意力被系统性放大:稀疏后 softmax 只在少量被保留的 tokens 上归一化,相比真实注意力,这些关键 tokens 的权重被显著推高。
  2. 非关键 tokens 的注意力完全丢失:未被保留的 tokens 不再参与任何计算,其注意力贡献被彻底抹除。

更重要的是,随着稀疏率提高,这两种偏差都会进一步加剧。因此,即便传统稀疏注意力方法在挑选重要 tokens 方面再精确,它们仍然难以在高稀疏率下保持生成质量。

Rectified SpaAttn:不是“精确选择”,而是“偏差校正”

研究团队提出了一个关键洞察:对均匀池化后的 Q 和 K 进行注意力计算,可得到一种“隐式全注意力”,其分布与真实全注意力高度一致。

基于这一发现,Rectified SpaAttn 并不再执着于挑选哪些 tokens 更重要,而是以“隐式全注意力”为参考,对稀疏注意力进行系统校正,让其分布重新对齐真实注意力,如下图所示。

隔离池化的注意力重分配:

理论推导表明,关键 tokens 在稀疏注意力中出现的偏差,与其在真实全注意力中的权重总和严格成正比。因此,可以通过“隐式全注意力”估计这一权重和,从而对偏差进行有效校正。

然而,由于文本 tokens 缺乏块内同质性,直接对完整序列的 Q 和 K 进行池化,会导致“隐式全注意力”产生显著误差。

为此,研究者提出隔离池化的注意力重分配(IPAR):

① 隔离文本 tokens,仅对视觉 tokens 进行池化,得到混合粒度的池化注意力;

② 根据粒度差异进行重加权与归一化,重构与真实注意力高度一致的“隐式全注意力”。

以此确保关键 tokens 的注意力偏差能够被准确校正。

收益感知的池化校正:

池化得到的“隐式全注意力”只具备块粒度的信息,用它来近似非关键 tokens 的 token 粒度注意力权重,既会带来注意力信息收益,也会引入块池化带来的近似误差。

因此,盲目的使用“隐式全注意力”对所有非关键tokens进行补偿,可能导致校正不稳定甚至失效。

为此,研究者提出收益感知的池化校正(GAPR):

① 分别建模校正带来的注意力收益与池化误差,在块维度上对两者进行量化估计;

② 设定校正条件,仅当补偿收益大于近似误差时,才对对应的非关键 token 块执行校正。

以此确保对非关键 tokens 的注意力偏差校正既可靠又稳健。

整体效果:更快、更稳

对比实验:

下表显示了在视频生成模型 HunyuanVideo 和 Wan 2.1 上的评估结果,相较当前 SoTA 的传统稀疏注意力方法,Rectified SpaAttn 能在更高稀疏率下依然保持更优的视觉质量。

同时,与模型缓存技术结合,Rectified SpaAttn 能进一步实现 4–9 倍的端到端加速,在加速与性能之间取得双重突破。

消融实验:

在 HunyuanVideo 上的消融结果表明,使用直接池化得到的“隐式全注意力”对所有 tokens 进行盲目校正,不仅无法提升性能,反而因错误校正导致生成质量下降。

相比之下,引入 IPAR 与 GAPR 后,对关键与非关键 tokens 进行分别、精准的偏差校正,模型性能显著提升。

此外,由于校正操作均基于池化张量完成,额外开销极小,因而在提升质量的同时,依然保持了高稀疏加速效率。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 23:33:21

【URP】Unity[后处理]色差ChromaticAberration

核心功能与用途‌视觉效果‌:在图像高对比度边缘(如物体轮廓)产生RGB通道分离的彩色条纹,常见红/蓝偏移‌应用场景‌:模拟老旧相机、镜头缺陷的复古风格表现角色醉酒、中毒等特殊状态科幻场景中增强高科技设备的光学畸…

作者头像 李华
网站建设 2026/6/10 7:20:46

智能语音革命:F5-TTS零门槛语音合成实战手册

智能语音革命:F5-TTS零门槛语音合成实战手册 【免费下载链接】F5-TTS Official code for "F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching" 项目地址: https://gitcode.com/gh_mirrors/f5/F5-TTS 在人工智能技术…

作者头像 李华
网站建设 2026/6/7 2:25:16

3个V-JEPA实战案例:如何用自监督学习解决视频分析难题

3个V-JEPA实战案例:如何用自监督学习解决视频分析难题 【免费下载链接】jepa 项目地址: https://gitcode.com/GitHub_Trending/je/jepa V-JEPA作为Meta AI推出的自监督视频表征学习框架,正在改变传统视频分析的范式。无需大量标注数据&#xff0…

作者头像 李华
网站建设 2026/6/7 15:47:12

ConvNeXt模型部署指南:5分钟快速搭建现代卷积网络

ConvNeXt模型部署指南:5分钟快速搭建现代卷积网络 【免费下载链接】ConvNeXt Code release for ConvNeXt model 项目地址: https://gitcode.com/gh_mirrors/co/ConvNeXt ConvNeXt是一种完全基于标准卷积模块构建的纯卷积网络模型,在图像识别和深度…

作者头像 李华
网站建设 2026/6/10 7:23:29

专业钢琴采样库:88键高品质WAV音频资源完整指南

专业钢琴采样库:88键高品质WAV音频资源完整指南 【免费下载链接】钢琴88键独立音频文件 本仓库提供了一个名为“钢琴88键独立音频文件.zip”的资源文件,该文件包含了钢琴全部88个音阶的音频文件。每个音阶的录音都被单独保存为一个文件,音频格…

作者头像 李华
网站建设 2026/6/9 18:17:58

还在盲猜理想型?AI 让情感探索更清晰

在情感探索的过程中,很多人都曾陷入 “不知道自己想要什么” 的迷茫:对理想伴侣的想象模糊笼统,缺乏具体认知;凭感觉寻找却屡屡碰壁,浪费时间与精力;难以清晰表达自身情感需求,影响亲密关系建立…

作者头像 李华