基于潜在扩散模型的加密流量数据集扩充方法
摘要:加密流量分类在网络安全监控与入侵检测中扮演着关键角色,然而加密流量数据集普遍存在的类别不平衡问题严重制约了分类模型的泛化性能。本文提出一种基于潜在扩散模型的加密流量数据集扩充方法,通过构建条件潜在扩散模型对少数类流量样本进行高质量生成,从而有效缓解类别不平衡问题。模型创新性地引入了基于对比学习的条件增强机制、针对表格异构特征的多模态扩散策略以及时间自适应调节模块。在ISCX-VPN-2016和NSL-KDD两个公开加密流量数据集上开展了对比实验、消融实验和参数敏感性实验,结果表明所提方法在少数类F1分数上相对于原始不平衡训练集提升达17.3%,较传统SMOTE方法和GAN方法分别提升9.8%和6.5%,验证了潜在扩散模型在加密流量数据扩充任务中的有效性。
关键词:加密流量分类;潜在扩散模型;数据扩充;类别不平衡;对比实验;消融实验
一、引言
随着互联网安全隐私保护需求的持续增长,TLS、HTTPS、QUIC等加密协议已广泛应用于Web、移动和物联网环境中。加密技术在有效保护用户数据隐私的同时,也给网络安全监控带来了前所未有的挑战——入侵检测系统不再能够直接解析流量载荷内容,必须依赖元数据统计特征(如数据包大小、到达间隔、方向等)来区分良性流量与恶意流量。
在加密流量分类的实际应用中,一个普遍存在的瓶颈是数据集的类别不平衡问题。正常流量往往占据数据集的绝大部分(可达90%以上),而各类攻击流量(特别是稀有类攻击)的样本数量严重匮乏。传统入侵检测模型在面对复杂网络环境中的稀有类攻击流量时存在明显局限性,不同种