轻量高效雷达信号分类网络的设计智慧：从坐标注意力到混合增强训练【附python代码】-深圳市維司達科技有限公司

轻量高效雷达信号分类网络的设计智慧：从坐标注意力到混合增强训练

在现代电子侦察与频谱感知领域，对雷达通信信号的自动调制识别已成为认知无线电、电磁态势分析的核心技术之一。随着电磁环境日益复杂，传统的专家特征提取方法在面对噪声干扰、信号样式多样化时逐渐显露局限。近年来，深度学习以其端到端的特征学习能力，在射频信号分类任务中展现出巨大的潜力。然而，如何在有限的计算资源和模型规模约束下，实现高精度、强鲁棒的分类性能，仍是工程应用中的关键挑战。

本文立足于一个限定参数量不超过 10 万的小型卷积神经网络设计，融合了坐标注意力机制、混合样本增强、权重指数滑动平均等一系列先进技巧，在雷达信号数据集上取得了优异的分类效果。我们将从理论层面系统梳理这些技术要点，为相关研究人员提供一个可借鉴的轻量级模型设计框架。

一、提升泛化性的数据增强策略

1.1 传统图像域增强

针对射频信号常以时频图等形式转化为图像输入的特点，采用随机水平翻转与色彩抖动来模拟信号接收过程中可能出现的镜像频谱偏移及轻微失真。这些经典增强操作在不改变信号语义的前提下，扩充了数据多样性，抑制了过拟合。

1.2 混合样本增强：Mixup

为进一步规范模型的决策边界，引入 Mixup 混合训练。其核心思想是在训练样本之间进行凸组合，强制模型在样本间进行线性插值学习，从而平滑输入空间。对于一对样本(xi,yi)(x_i, y_i)(xi,yi)和(xj,yj)(x_j, y_j)(xj,yj)，构造虚拟训练样本：

其中混合系数λ\lambdaλ从贝塔分布Beta(α,α)\text{Beta}(\alpha, \alpha)Beta(α,α)采样，通常取α=0.2\alpha=0.2α=0.2以生成偏向原始样本的混合。损失函数则对应调整为：

Mixup 有效改善了模型的校准性，降低了对对抗样本的脆弱性，并在标签外推区域提供了更平滑的预测分布。

二、模型架构的理论创新

在仅允许约 10 万可训练参数的强约束下，模型必须做到结构精巧和计算高效。本文设计的 BasicCNN 网络融合了移动翻转瓶颈卷积（MBConv）与坐标注意力（Coordinate Attention），并在末端采用双池化策略集成特征。

2.1 移动翻转瓶颈卷积 (MBConv)

MBConv 源自 EfficientNet 系列，是深度可分离卷积的高效变体。其结构包含三个关键步骤：

逐点扩展：利用1×11\times11×1卷积将输入通道数扩展kkk倍（扩展比kkk常取 2~6），在高维空间增强特征表达；
逐通道深度卷积：在每个通道上独立进行3×33\times33×3空间卷积，大幅降低参数量；
压缩与投影：再通过1×11\times11×1卷积将通道数投影回目标输出维数，并可选加入残差连接。

深度卷积的参数量仅为标准卷积的1/Cout1/C_{\text{out}}1/Cout，使得 MBConv 在保持较强特征提取能力的同时，成为构建轻量级模型的基石。

2.2 坐标注意力机制 (Coordinate Attention)

常规的通道注意力（如 SENet）仅通过全局平均池化来建模通道间依赖，完全忽视了空间位置信息，这对位置敏感的射频信号时频图尤为不利。坐标注意力将空间注意力分解为两个并行的一维特征编码过程。

对于输入特征图X∈RC×H×WX \in \mathbb{R}^{C \times H \times W}X∈RC×H×W，首先沿水平方向和垂直方向分别进行全局平均池化：

得到一对方向感知的特征向量zh∈RC×H×1z_h \in \mathbb{R}^{C \times H \times 1}zh∈RC×H×1和zw∈RC×1×Wz_w \in \mathbb{R}^{C \times 1 \times W}zw∈RC×1×W。随后将它们拼接，经过共享的1×11\times11×1卷积、批归一化和非线性激活：

其中δ\deltaδ采用 SiLU（Sigmoid Linear Unit）激活函数。接着将fff沿空间维度切分为fhf_hfh和fwf_wfw，再分别通过1×11\times11×1卷积和目标 Sigmoid 门控，生成注意力权重：

最终输出为原始特征与两个注意力权重的元素乘积：

这一设计不仅捕获了通道间的依赖，还精准编码了横向和纵向的空间结构信息，显著提升了模型对时频图中信号纹理与频点位置的辨别能力。将其嵌入 MBConv 的深度卷积之后，即构成 MBConvCA 模块，使网络的每一阶段都具备空间 - 通道联合注意力。

2.3 双池化特征聚合

在卷积特征提取的末端，传统的全局平均池化仅保留了数据的平均能量，丢弃了峰值信息。本文同时采用全局平均池化与全局最大池化：

将两个特征向量沿通道维度拼接，得到v=[vavg;vmax]∈R2Cv = [v_{\text{avg}}; v_{\text{max}}] \in \mathbb{R}^{2C}v=[vavg;vmax]∈R2C，再输入 Dropout 正则化后的全连接层进行分类。双池化策略能够互补地捕获信号的整体统计量和瞬时强响应特征，对宽带噪声下的信号检测尤其有益。

三、训练策略中的正则化与优化技巧

3.1 标签平滑 (Label Smoothing)

传统独热标签引导的交叉熵损失会使模型过分自信，导致泛化性能下降。标签平滑将真实标签分布从硬性的q(k)=δk,yq(k)=\delta_{k,y}q(k)=δk,y软化：

其中KKK为类别数，ϵ\epsilonϵ为平滑系数（本文取 0.1）。交叉熵损失变为−∑k=1Kq′(k)log⁡p(k)-\sum_{k=1}^{K} q'(k) \log p(k)−∑k=1Kq′(k)logp(k)，鼓励模型学习更均匀的预测分布，有效防止过拟合，并与 Mixup 产生协同作用。

3.2 权重指数移动平均 (EMA)

在训练过程中，模型参数的随机梯度下降常伴有较大波动，特别是使用较小批次时。权重指数移动平均维护一套平滑的模型参数θEMA\theta_{\text{EMA}}θEMA，在每次迭代后更新：

衰减系数α\alphaα设置为 0.999，使得 EMA 模型相当于对近期参数轨迹取加权平均。在验证与测试阶段使用 EMA 参数，可消除随机噪声带来的抖动，通常能获得比原始训练模型更高且更稳定的精度，几乎无额外推理开销。

3.3 优化器选择与学习率调度

采用AdamW优化器，它将权重衰减与自适应学习率解耦：

其中m^t,v^t\hat{m}_t, \hat{v}_tm^t,v^t为动量与二阶矩的偏差校正值，λ\lambdaλ为解耦权重衰减系数。相比传统 Adam 中的 L2 正则化，AdamW 能更精确地控制权值衰减，提升收敛后的模型性能。

学习率策略采用余弦退火调度：

在 80 个训练周期内，学习率从初始值2×10−32\times10^{-3}2×10−3平滑下降至最小值10−610^{-6}10−6。余弦曲线在训练初期保持较高学习率探索，后期缓慢退火以精细收敛，避免了阶梯下降的手动调参需求。

四、评估体系与结果可靠性

模型评估不仅依赖全局准确率，更注重类别间的均衡表现，采用了精确率、召回率与 F1 分数逐类分析，并绘制混淆矩阵直观展示分类混淆情况。所有实验均通过固定随机种子（seed=42）确保可复现性。结果指标表明，在包含多种雷达调制样式的数据集上，该轻量模型在仅约 10 万参数条件下，各类别 F1 分数均保持较高水平，混淆矩阵呈强对角特性，验证了所设计架构与训练策略的有效性。

五、对研究人员的参考借鉴意义

本文构建的轻量级信号分类框架为相关研究者提供了以下几个层面的启发：

注意力机制的空间化：坐标注意力以极小的计算开销将位置信息融入特征图中，比单纯使用 SE 模块更适合保留二维结构的信号数据，可推广至其他时频分析任务。
Mixup 与标签平滑的组合：两种增强方法从数据空间和标签分布两个角度做了正则化，能有效提升小模型的泛化能力，且两者搭配互补，值得在样本较少或类别不均衡时采用。
EMA 在验证中的使用：训练时的参数快照往往不是最优模型，EMA 可几乎无成本地挖掘更优权重，这一技巧简单却常被忽视。
轻量化推理部署：所提 MBConvCA 模块及整体网络设计严守参数总量限制，同时通过双池化引入多尺度信息，适合移植至 FPGA 或嵌入式实时频谱监测设备。
训练全过程可视化与记录：系统记录损失与精度曲线，并输出混淆矩阵及各类别指标，为后续模型诊断和优化提供了清晰的量化依据，建议作为实验标准化流程。

六、结语

在射频认知领域，算法的精度与效率往往需要精巧的权衡。本文通过深入剖析坐标注意力、MBConv、Mixup 等关键技术的理论基础与协同效应，展示了一条在严格参数约束下构建高性能分类模型的可行路径。希望这一设计思想能为从事通信信号智能处理、嵌入式深度学习模型压缩的研究人员提供新的思路与参考，推动轻量级深度学习方法在电磁感知实战中的落地应用。