💡💡💡问题点:特征融合对高性能视觉模型至关重要,但往往会带来难以承受的计算复杂度。然而,主流的基于注意力的融合方法通常计算开销巨大、实现复杂,在资源受限的场景中效率低下。
💡💡💡我们提出金字塔稀疏 Transformer(PST)——一个轻量级、即插即用的模块,通过由粗到细的 token 选择机制和共享注意力参数,在大幅降低计算量的同时保留空间细节。
💡💡💡将PST 嵌入当前最先进的实时检测模型后,在 MS COCO 上的 mAP 分别提升 0.9%、0.5%、0.4%,而延迟增加极小。同样地,把 PST 作为骨干网络嵌入 ResNet-18/50/101,可在 ImageNet 上将 Top-1 准确率分别提高 6.5%、1.7%、1.0%。这些结果充分证明,PST 是一种简单、硬件友好的通用增强方案,可无缝应用于检测与分类任务。
改进结构图如下:
</