YOLOv8改进策略【Conv和Transformer】| CVPR 2023：Super Token Attention 超级令牌注意力机制-深圳市維司達科技有限公司

一、本文介绍

本文记录的是利用Super Token Attention（STA）机制优化YOLOv8的目标检测网络模型。

传统视觉Transformer的全局自注意力机制虽能捕捉长程依赖，但计算复杂度与令牌数量呈二次关系，资源占用极大；局部注意力或早期卷积虽降低了计算量，却牺牲了全局建模能力，且浅层存在高冗余。STA借鉴超像素思想，通过稀疏关联学习将视觉令牌聚合为语义紧凑的超令牌，在超令牌空间高效执行自注意力以捕捉全局依赖，再通过令牌上采样映射回原始令牌空间，将复杂的全局注意力分解为稀疏关联图与低维注意力的乘积，实现了高效且有效的全局上下文建模，同时保留局部特征表达能力。

专栏目录：YOLOv8改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进

专栏地址：YOLOv8改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

文章目录

一、本文介绍
二、Super Token Attention介绍
- 2.1 出发点
- 2.2 原理
- 2.3 结构
- - 2.3.1 Super Token Sampling (STS)
  - 2.3.2 Multi - Head Self - Attention (MHSA)
  - 2.3.3 Token Upsampling (TU)
- 2.4 优势
三、Super Token Attention的实现代码
四、创新模块
- 4.1 改进点1
- 4.2 改进点2⭐
五、添加步骤
- 5.1 修改一
- 5.2 修改二
- 5.3 修改三
六、yaml模型文件
- 6.1 模型改进版本一⭐
- 6.2 模型改进版本二⭐
七、成功运行结果

二、Super Token Attention介绍

Vision Transformer with Super Token Sampling

2.1 出发点

Vision transformer在浅层捕获局部特征时可能存在高冗余，局部自注意力或早期卷积的使用会牺牲捕获长程依赖的能力。为了解决在神经网络早期阶段能否进行高效且有效的全局上下文建模这一挑战，受超像素设计的启发，将其引入到Vision transformer中，提出了Super Token Attention模块。

2.2 原理

借鉴超像素减少后续处理中图像基元数量的思想，假设超令牌是视觉内容的一种语义上有意义的细分，从而减少自注意力中的令牌数量并保留全局建模能力。通过稀疏关联学习从视觉令牌中采样超令牌，对超令牌进行自注意力操作，然后将它们映射回原始令牌空间，将普通的全局注意力分解为稀疏关联映射和低维注意力的乘法，从而高效地捕获全局依赖关系。

2.3 结构

Super Token Attention模块由三个过程组成，即Super Token Sampling (STS)、Multi - Head Self - Attention (MHSA)和<

基于PaddlePaddle的中文NLP开发环境搭建：CUDA安装与git配置全攻略

基于PaddlePaddle的中文NLP开发环境搭建：CUDA安装与git配置全攻略在当今AI研发实践中，一个稳定、高效且可协作的开发环境，往往比算法本身更能决定项目的成败。尤其是在处理中文自然语言任务时，面对分词歧义、语义依赖复杂、上下…

李华

Qwen3-VL-8B：轻量多模态模型的实用落地

Qwen3-VL-8B：轻量多模态模型的实用落地在智能家居设备日益复杂的今天，确保无线连接的稳定性已成为一大设计挑战。然而，当我们把目光转向AI领域，类似的困境也在上演——越来越多惊艳的多模态模型如雨后春笋般涌现，但真…

李华

kotaemon嵌入模型多维度向量化解析

kotaemon嵌入模型多维度向量化解析在构建现代智能对话系统时，一个核心挑战始终摆在开发者面前：如何让机器真正“理解”人类语言的丰富语义？尤其是在企业级应用中，面对专业术语、多轮上下文、跨语言文档等复杂场景，传统…

李华

PaddlePaddle与Dify智能体平台集成：实现AI应用快速上线

PaddlePaddle与Dify智能体平台集成：实现AI应用快速上线在企业加速数字化转型的今天，一个现实问题反复浮现：明明已经有了先进的AI模型，为什么做不出能用、好用的产品？许多团队投入大量资源训练出高精度的OCR或文本分类…

李华

国产AI框架PaddlePaddle镜像部署：集成cuda安装与maven下载优化

国产AI框架PaddlePaddle镜像部署：集成CUDA安装与Maven下载优化在当今AI项目快速迭代的背景下，一个稳定、高效且开箱即用的开发环境，往往比模型本身更能决定团队的交付速度。尤其是在中文自然语言处理、工业视觉检测等国产化需求强烈的场景中…

李华

LLaMA-Factory 推理全攻略：从配置到实战优化

LLaMA-Factory 推理全链路实战：从配置到部署的工程化指南在大模型应用日益深入业务场景的今天，如何快速、稳定地将一个预训练模型转化为可用的服务，已经成为开发者的核心能力之一。面对动辄几十亿参数的模型，传统“加载—推理—输…

李华