news 2026/6/10 17:23:46

如何用爬虫、机器学习识别方式屏蔽恶意广告

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
如何用爬虫、机器学习识别方式屏蔽恶意广告

这是一个非常硬核的系统工程题目。要构建一个能够识别“恶意广告”(Malvertising)的系统,不能仅靠简单的黑名单(AdBlock模式),必须结合主动诱捕(Active Crawling)视觉分析(Computer Vision)和代码行为分析

恶意广告通常具有以下高阶特征,传统手段难以屏蔽:

  1. Cloaking(伪装):针对爬虫展示正常内容,针对真实用户展示恶意载荷。
  2. DOM Obfuscation(混淆):频繁变换 HTML 结构和 JS 变量名。
  3. Social Engineering UI(社会工程学 UI):伪装成系统弹窗、关闭按钮或虚假杀毒软件界面。

一、 整体系统架构设计

这是一个典型的“多模态”检测系统。我们需要同时处理视觉数据(截图)文本数据(JS代码/URL)和网络行为数据(跳转链)

决策层 (Inference)
特征层 (Feature)
采集层 (Crawl)
访问高危网站
Hook API
截屏
抓包
CNN/ResNet
AST分析 & 熵计算
Graph Embedding
特征融合
特征融合
特征融合
Score > 0.8
Ensemble 模型 (XGBoost/LightGBM)
判定恶意 & 自动生成屏蔽规则
视觉特征向量: 伪造UI/色情/诱导
代码特征: 混淆度/危险函数
网络特征: 跳转深度/域名信誉
触发广告加载
高仿真浏览器集群
数据捕获
广告视觉快照
JavaScript源码 & 重定向链

二、 核心模块一:抗检测的“诱捕”爬虫 (Anti-Cloaking Crawler)

恶意广告商会通过指纹识别(Canvas Fingerprinting、Webdriver检测)来屏蔽爬虫。我们需要使用Playwright配合stealth插件,并注入“鼠标抖动”等人类行为。

关键代码逻辑:

importasynciofromplaywright.async_apiimportasync_playwrightasyncdefcapture_malvertising(url):asyncwithasync_playwright()asp:# 1. 启动抗检测浏览器上下文browser=awaitp.chromium.launch(headless=False)# 必须有头模式以规避部分检测context=awaitbrowser.new_context(user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64)...",viewport={'width':1920,'height':1080})# 2. 注入反检测脚本 (Stealth)awaitcontext.add_init_script(path="stealth.min.js")page=awaitcontext.new_page()# 3. 监听网络请求链 (捕获重定向)redirect_chain=[]page.on("request",lambdarequest:redirect_chain.append(request.url))try:awaitpage.goto(url,wait_until="networkidle")# 4. 模拟人类行为:随机滚动鼠标,触发懒加载广告awaitpage.mouse.move(100,100)awaitpage.evaluate("window.scrollTo(0, document.body.scrollHeight/2)")# 5. 定位 iframe 广告并截图frames=page.framesfori,frameinenumerate(frames):# 简单的启发式规则:过滤掉太小的像素点,保留像广告的区域box=awaitframe.evaluate("() => document.body.getBoundingClientRect()")ifbox['width']>50andbox['height']>50:# 保存截图用于视觉分析awaitframe.screenshot(path=f"ad_frame_{i}.png")# 保存页面源码用于代码分析content=awaitframe.content()withopen(f"ad_source_{i}.html","w")asf:f.write(content)exceptExceptionase:print(f"Error:{e}")finally:awaitbrowser.close()returnredirect_chain# 运行采集# asyncio.run(capture_malvertising("http://high-risk-site.com"))

三、 核心模块二:特征工程深度解析

除了截图,最核心的是识别JavaScript 的恶意程度。恶意广告代码通常经过高度混淆(Obfuscation)。我们可以通过计算**信息熵(Shannon Entropy)**来量化代码的混乱程度。

代码特征提取逻辑:

importmathimportrefromcollectionsimportCounterdefcalculate_entropy(text):"""计算字符串的信息熵。恶意混淆代码通常熵值很高"""ifnottext:return0entropy=0length=len(text)counts=Counter(text)forcountincounts.values():probability=count/length entropy-=probability*math.log(probability,2)returnentropydefextract_code_features(js_code):features={}# 1. 信息熵特征 (混淆检测)features['entropy']=calculate_entropy(js_code)# 2. 危险函数检测 (正则匹配)# 恶意广告常用 eval, document.write 动态生成内容dangerous_patterns=[r'eval\(',r'document\.write\(',r'window\.location',r'unescape\(',r'atob\(']features['suspicious_func_count']=sum(1forpindangerous_patternsifre.search(p,js_code))# 3. 字符串特征# 查找超长字符串(通常是加密的 Payload)longest_string=max(len(s)forsinre.findall(r'"([^"]*)"',js_code))ifre.findall(r'"([^"]*)"',js_code)else0features['max_str_len']=longest_string# 4. 脚本长度features['code_length']=len(js_code)returnfeatures# 示例:一段混淆代码的熵会很高,普通代码熵较低# print(extract_code_features("eval(function(p,a,c,k,e,d)..."))

四、 核心模块三:视觉识别模型 (Fake UI Detection)

这是对抗社会工程学广告(如假装是一个系统弹窗)的关键。我们需要训练一个 CNN 模型。

  • 数据集构建

    • 正样本(恶意):带有 “Download”, “Scan Now”, “Close”, “System Warning” 样式的广告图。
    • 负样本(正常):普通的电商广告、品牌展示。
  • 模型架构思路:使用迁移学习(Transfer Learning),基于EfficientNet进行微调,因为它在速度和精度上平衡较好,适合浏览器端的推理。

PyTorch 模型定义示例:

importtorchimporttorch.nnasnnfromtorchvisionimportmodelsclassMaliciousAdNet(nn.Module):def__init__(self):super(MaliciousAdNet,self).__init__()# 使用预训练的 ResNet18 或 EfficientNetself.base_model=models.resnet18(pretrained=True)# 冻结浅层参数,只训练分类头forparaminself.base_model.parameters():param.requires_grad=False# 替换全连接层num_ftrs=self.base_model.fc.in_features self.base_model.fc=nn.Sequential(nn.Linear(num_ftrs,128),nn.ReLU(),nn.Dropout(0.5),nn.Linear(128,2)# 二分类:良性 vs 恶意)defforward(self,x):returnself.base_model(x)# 训练时,重点关注 False Positive(误报),因为屏蔽正常广告会影响用户体验。

五、 最终部署:融合推理

在实际应用中(例如浏览器插件网关),我们采用流水线过滤机制以保证性能:

  1. Level 1 (毫秒级)Bloom Filter 黑名单。检查 URL 是否在已知的恶意域名库中。
  2. Level 2 (毫秒级)轻量级代码分析。如果 JS 代码熵值过高(>5.5)且包含eval,直接标记风险。
  3. Level 3 (秒级)视觉推理。如果前两步不确定,则在后台对渲染出的 iframe 进行截图,送入 CNN 模型判断。

融合判定伪代码:

defpredict_ad_safety(url_features,code_features,image_features):# 权重分配:代码特征通常比视觉特征更可靠risk_score=(0.3*model_visual.predict(image_features)+0.5*model_code.predict(code_features)+0.2*model_network.predict(url_features))ifrisk_score>0.85:return"BLOCK"elifrisk_score>0.6:return"SUSPICIOUS_SANDBOX"# 放入沙箱隔离运行else:return"ALLOW"

总结

要真正屏蔽恶意广告,不能只盯着“广告”本身,而是要识别“攻击行为”。

  • 爬虫负责撕开伪装(Anti-Cloaking)。
  • OCR/CNN负责识破视觉欺诈(Fake UI)。
  • NLP/熵分析负责检测底层代码的恶意载荷(Obfuscated Payload)。

这套组合拳打下来,能有效拦截那些能够绕过传统 AdBlock 规则库的 0-day 恶意广告。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/6 2:26:44

Apache Mesos运维终极指南:10个核心维护策略与最佳实践

Apache Mesos运维终极指南:10个核心维护策略与最佳实践 【免费下载链接】mesos Apache Mesos 项目地址: https://gitcode.com/gh_mirrors/mesos2/mesos Apache Mesos运维管理是确保大规模分布式系统稳定运行的关键环节。作为领先的集群资源管理器&#xff0c…

作者头像 李华
网站建设 2026/6/10 9:38:36

深入理解C语言if语句的汇编实现原理:从条件判断到底层跳转

引言:代码背后的机器思维在高级语言中,一个简单的if语句隐藏着计算机底层丰富的执行逻辑。当我们写下if (a > b)时,编译器究竟是如何将其转化为CPU能理解的指令的?这篇文章将带你深入探究C语言条件判断与汇编跳转指令之间的精妙…

作者头像 李华
网站建设 2026/6/10 10:51:14

缓存集群性能跃迁:从传统轮询到智能路由的架构革命

缓存集群性能跃迁:从传统轮询到智能路由的架构革命 【免费下载链接】memcached memcached development tree 项目地址: https://gitcode.com/gh_mirrors/mem/memcached 当你的Memcached集群扩展到5台以上服务器时,是否注意到缓存命中率从85%骤降到…

作者头像 李华
网站建设 2026/6/9 13:58:39

安全测试公开课来啦!带你掌握安全测试的核心实战技能

在数字化浪潮席卷的今天,一个看似微小的安全漏洞,就可能导致企业数据泄露、业务中断,甚至造成无法挽回的品牌声誉损失。作为开发、测试或运维人员的你,是否也曾感到焦虑: 面对层出不穷的安全事件,不知从何防…

作者头像 李华
网站建设 2026/6/1 20:28:42

信令是什么?为什么 WebRTC 需要信令?

信令是什么?为什么 WebRTC 需要信令? 本文是 WebRTC 系列专栏的第六篇,也是第二部分"信令与会话管理"的开篇。我们将深入探讨信令的概念、作用以及如何设计自己的信令服务器。 目录 什么是信令信令不是 WebRTC 标准的一部分信令传输的内容信令传输方式信令服务器设…

作者头像 李华
网站建设 2026/6/10 10:52:47

2026毕设ssm+vue基于框架的宠物商城平台论文+程序

本系统(程序源码)带文档lw万字以上 文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容一、选题背景 关于动漫垂直社区的研究,现有成果主要以 B 站、A 站等综合视频平台为主,专门针对“动漫图文分享轻社交…

作者头像 李华