Web安全实战：短网址服务白名单绕过与逻辑漏洞挖掘分析-深圳市維司達科技有限公司

1. 项目概述：一次对百度短网址服务安全边界的探索

最近在分析一些公开的Web服务接口时，我又把目光投向了百度短网址。这个服务大家应该都不陌生，xxx.sru.baidu.com/xx/这个接口就是其核心的生成入口，它能把又长又复杂的URL压缩成简短的dwz.cn链接，方便在社交平台或短信中传播。作为一个搞安全的老兵，我本能地对这类大规模、高并发的公共服务保持警惕，因为任何一点逻辑疏漏都可能被放大成严重的安全问题。这次，我并不是要复现某个已知的、具体的“最新漏洞”，市面上流传的所谓“绕过白名单漏洞”往往信息模糊，真伪难辨。我的目标更偏向于一次系统的安全评估：以这个接口为样本，深入剖析其可能存在的安全边界模糊地带，并分享一套可复现的、通用的分析思路与方法。这对于想深入理解Web应用安全，特别是逻辑漏洞挖掘的朋友来说，会是一次不错的实战演练。

我们会从最基本的接口交互开始，一步步拆解其请求响应流程，然后尝试构造各种“非预期”的输入，观察系统的反应。重点会放在“白名单”或“安全校验”逻辑的绕过可能性上，这通常是逻辑漏洞的高发区。整个分析过程，我会结合类似靶场（如Pikachu）中的手工测试思维，但完全在合规合法的授权测试框架内进行，旨在提升防御视角。你会发现，很多漏洞的挖掘，不在于掌握了多么高深的“黑客工具”，而在于你是否比开发者想得更“周全”一些。

2. 百度短网址接口交互机制深度解析

要分析潜在漏洞，首先得把正常流程吃透。百度短网址生成服务，其核心是一个公开的API。通常，用户通过前端页面或直接调用API，将一个长URL提交给服务端，服务端经过处理，返回一个唯一的短码，拼接到dwz.cn/域名后，就形成了短网址。

2.1 接口请求与响应格式拆解

通过抓包或直接分析网页请求，我们可以还原其基本的HTTP交互。一个典型的创建请求可能是这样的：

POST /xx/ HTTP/1.1 Host: xxx.sru.baidu.com Content-Type: application/x-www-form-urlencoded url=https%3A%2F%2Fwww.example.com%2Fvery-long-path%2Fand%2Fparameters%3Fid%3D123&alias=&access_type=web

关键参数一目了然：

url: 需要缩短的长网址，必须是URL编码后的格式。
alias: 用户自定义短码，通常留空由系统生成。
access_type: 标识请求来源，例如web表示来自网页端。

一个成功的响应可能是一个JSON对象：

{ "code": 0, "short_url": "https://dwz.cn/AbCdEfGh", "long_url": "https://www.example.com/very-long-path/and/parameters?id=123" }

这里的code为0代表成功，short_url就是生成的最终结果。

而一个失败的响应，则可能包含错误码和提示信息：

{ "code": 500, "msg": "生成失败，请检查输入网址" }

这里就是第一个需要关注的安全点：错误信息处理。过于详细的错误信息（如“域名不在白名单内”、“检测到非法参数：<script>”）可能会为攻击者提供枚举目标、理解后端逻辑的线索。在分析时，我们需要系统地测试各种非法、畸形输入，观察其错误响应的差异，这有助于我们反向推测服务端的校验规则。

2.2 白名单机制与校验逻辑推测

像百度这样的平台，其短网址服务绝不可能接受任意URL的缩短。否则，它瞬间就会成为传播恶意链接的帮凶。因此，一个“域名白名单”或“内容安全校验”机制是必然存在的。这也是所谓“绕过白名单”漏洞存在的理论前提。

我们可以合理推测其校验逻辑可能包含以下几个层次：

协议校验：只允许http://或https://开头的URL。
域名白名单：维护一个庞大的、可信的域名列表（如*.baidu.com,*.gov.cn, 主流新闻站、电商站等）。提交的URL域名必须在此列表中。
内容安全扫描：对提交的URL指向的页面内容进行快速安全扫描，检测是否包含恶意代码、钓鱼页面等。
频率与权限限制：对单IP或单用户的生成频率进行限制，防止滥用。

我们的分析重点，将主要放在第2层“域名白名单”的逻辑完备性上。攻击者的目标，就是尝试提交一个“不在白名单内”的域名，但通过某种技巧，让校验系统“认为”它在白名单内，或者干脆绕过校验。

注意：以下所有测试思路均基于“假设存在校验逻辑不严”的前提进行推演，属于防御性安全研究范畴。在实际测试任何线上系统前，必须获得明确授权。

3. 潜在绕过技术点分析与手工测试模拟

借鉴在Pikachu这类Web靶场中进行手工注入测试的思维，我们对短网址接口的测试也是一种“手工模糊测试”。我们需要精心构造一系列“测试向量”，观察系统的反应，从而定位逻辑缺陷。

3.1 基于URL解析差异的绕过尝试

这是最常见的一类绕过思路。Web应用中，前端JavaScript、后端编程语言（如Java的URI、URL类，Python的urllib.parse）、Web服务器（如Nginx、Apache）以及负载均衡器，它们解析URL的规则可能存在细微差异。攻击者可以利用这些差异，制造“歧义”。

测试案例1：利用@符号假设白名单校验逻辑是简单地匹配://之后到下一个/或?或#之前的部分作为“主机名”。那么我们可以构造：

https://trusted.baidu.com@evil.com/

前端/人眼理解：这看起来像是一个trusted.baidu.com下的地址。
某些后端库解析结果：evil.com会被解析为实际的主机（host），而trusted.baidu.com被解析为用户名（userinfo）。如果校验逻辑错误地提取了“用户名”部分，或者解析库配置不当，就可能被绕过。

测试案例2：利用畸形端口与路径

https://trusted.baidu.com:80@evil.com/ https://trusted.baidu.com\\.evil.com/ (注意是反斜杠)

这些构造旨在干扰基于正则表达式的域名提取逻辑。反斜杠在某些上下文（如Windows路径、某些旧的解析器）中可能被特殊处理。

测试案例3：利用子域名与通配符假设白名单包含*.baidu.com。那么evil.baidu.com显然是不被允许的。但我们可以测试：

evil.baidu.com.example.com– 如果校验是简单的后缀匹配（endsWith(".baidu.com")），这个字符串是匹配的，但它实际上是一个子域名属于example.com。
baidu.com.evil.com– 同样，如果只是包含baidu.com字符串就通过，那这也可能被绕过。

实操心得：在进行这类测试时，务必使用Burp Suite、Postman等工具直接发送原始HTTP请求，避免浏览器地址栏的自动编码和规范化，因为浏览器通常会“修复”一些畸形URL，从而掩盖真正的漏洞点。你需要亲自控制每一个字节的发送。

3.2 请求参数污染与混淆

短网址接口除了url参数，可能还有其他参数。这些参数之间如何相互作用，可能存在逻辑问题。

测试案例4：参数重复

POST /xx/ HTTP/1.1 ... url=https://trusted.com&url=https://evil.com

如果后端使用request.getParameter("url")（类似Java Servlet的做法），它通常只返回第一个值。但如果校验逻辑和业务处理逻辑获取参数的方式不一致（例如一个从查询字符串取，一个从POST Body取，或使用了不同的框架函数），就可能出现校验通过的是trusted.com，而实际生成的是evil.com的短链接。

测试案例5：JSON格式与普通表单格式混淆观察接口是否接受Content-Type: application/json。尝试发送：

POST /xx/ HTTP/1.1 Content-Type: application/json { "url": "https://evil.com", "alias": "", "access_type": "web" }

如果后端框架支持多种数据格式解析，而路由或校验层只对某一种格式（如表单格式）做了严格检查，对JSON格式检查松懈，就可能存在绕过。

3.3 服务端重定向与跳转滥用

这是更高级的一种思路，利用了短网址服务可能需要“预览”或“安全检查”目标页面的特性。

测试案例6：开放重定向漏洞利用假设我们有一个白名单网站trusted.com，并且它存在一个开放重定向漏洞，例如https://trusted.com/redirect?url=https://evil.com。那么，我们可以提交这个trusted.com的链接给短网址服务。服务端的安全爬虫在访问trusted.com的这个地址时，会被302重定向到evil.com。如果爬虫简单地跟随重定向，并对最终落地页进行安全检查，而evil.com恰好是一个精心构造的、暂时看起来“安全”的页面（或者爬虫深度有限），那么短链接就有可能生成成功。当用户点击这个短链接时，会经过trusted.com的跳转，最终到达evil.com。

测试案例7：基于时间的攻击（逻辑竞争）想象这样一个场景：服务端校验和生成短码不是原子操作。步骤可能是：1. 校验URL是否在白名单。2. 访问该URL，进行内容安全扫描。3. 扫描通过，生成短码存入数据库。如果在步骤2和3之间，攻击者能够快速将trusted.com上的页面内容替换成恶意内容（例如，利用可上传的页面、评论功能等），那么最终存入数据库的短链接指向的，就是一个“校验时安全，生成后变恶意”的页面。这种攻击条件苛刻，但并非不可能。

4. 构建系统化的测试流程与观察要点

漫无目的地测试效率很低。我们需要建立一个系统化的流程，就像在Pikachu靶场做SQL注入一样，有步骤、有记录。

4.1 测试环境搭建与工具准备

虽然我们不能直接测试百度生产环境，但可以搭建一个模拟环境来演练思路。你可以用Python Flask或PHP快速写一个简单的短网址服务，故意留下一些有缺陷的白名单校验逻辑（例如，只检查URL中是否包含“baidu”字符串），然后针对性地测试上述绕过方法。这能帮你深刻理解漏洞成因。

必备工具清单：

Burp Suite Professional：拦截、重放、篡改HTTP请求的核心工具。Intruder模块可用于对参数进行模糊测试和枚举。
Postman：用于构造和保存复杂的请求模板，特别是测试不同Content-Type。
浏览器开发者工具：观察前端JavaScript如何构造请求，有时漏洞可能在前端校验绕过。
自定义脚本（Python）：当需要批量测试、处理复杂逻辑或竞争条件时，自己写的脚本最灵活。
网络抓包工具（如Wireshark）：在某些复杂场景下，用于分析更底层的网络流量，但Web测试中Burp通常足够。

4.2 测试用例设计与执行记录

设计一个测试用例表格，有条理地进行并记录结果。下面是一个示例：

测试ID	测试类型	提交的URL（示例）	预期行为（假设正常逻辑）	实际观察结果	分析结论
T01	基础白名单	`https://www.evil-news.com`	应拒绝（不在白名单）	返回错误码500，msg为“非法请求”	校验存在，但错误信息较模糊，安全。
T02	`@`绕过	`https://news.baidu.com@evil.com/path`	应拒绝（主机为evil.com）	成功生成短链！点击跳转至evil.com	潜在漏洞！后端解析可能使用了不安全的库或正则。
T03	参数污染	`url=https://news.baidu.com&url=https://evil.com`	应拒绝或使用第一个值	使用了第二个值生成短链	潜在漏洞！参数处理逻辑不一致。
T04	JSON格式	`{"url": "https://evil.com"}`(JSON Body)	应拒绝	成功生成短链	潜在漏洞！对JSON输入校验缺失。
T05	开放重定向	`https://trusted.com/redirect?to=evil.com`	应能识别最终跳转目标并拒绝	成功生成短链，点击后跳转至evil.com	潜在漏洞！安全爬虫未检测或未正确处理重定向链。

执行要点：

每次只改变一个变量：这样才能准确定位是哪种Payload触发了异常。
仔细比对响应：不仅看成功/失败，还要对比HTTP状态码、响应头、响应体JSON结构、错误信息的细微差别。有时，响应时间的显著差异也能提示问题（如触发了后端慢查询）。
注意频率限制：如果触发频率限制，应更换IP或暂停测试，避免影响服务。

5. 漏洞的防御编码实践与安全建议

通过上面的分析，我们站在攻击者视角看到了多种可能性。现在切换回防御者视角，一个健壮的短网址服务应该如何编码？

5.1 输入校验的“黄金法则”

使用权威库进行标准化解析：绝对不要用自己写的正则表达式去解析URL。应使用语言标准库中的权威解析函数，如Python的urllib.parse.urlparse，Java的java.net.URI，并严格遵循RFC标准。解析后，从返回的对象中提取scheme（协议）、hostname（主机名）、port（端口）。

from urllib.parse import urlparse def extract_domain(url): try: parsed = urlparse(url) if parsed.scheme not in ('http', 'https'): raise ValueError("Only HTTP/HTTPS allowed") hostname = parsed.hostname if not hostname: raise ValueError("Invalid hostname") # 这里hostname已经是解析后纯净的主机名，不含@、端口、路径 return hostname.lower() # 统一转为小写 except Exception as e: # 记录日志并拒绝 return None

多层校验与归一化：
- 协议校验：只允许http和https。
- 域名提取与净化：如上所述，使用标准库。
- 白名单匹配：对提取出的纯净主机名进行白名单匹配。匹配规则应该是精确匹配或基于域名的后缀匹配，且要防止前文提到的baidu.com.evil.com这种混淆。更好的做法是维护一个“允许的顶级域名+1”或“允许的注册域名”列表。
- 黑名单补充：同时维护一个已知的恶意域名、IP地址黑名单。
深度内容安全检查：
- 对目标URL进行HEAD或GET请求（控制超时时间和深度）。
- 检查最终跳转链，如果存在重定向，追踪到最后落地页的域名，并对其应用白名单规则。
- 对页面内容进行简单的恶意特征扫描（如已知的钓鱼页面特征、恶意脚本模式）。

5.2 架构与运营层面的加固

业务逻辑原子性：将“校验-生成-存储”作为一个数据库事务来处理，或者使用分布式锁，防止竞争条件漏洞。
安全的错误处理：对外返回统一的、信息模糊的错误提示，如“请求参数错误”或“服务繁忙”，避免泄露内部逻辑。详细的错误信息记录在内部日志中，供审计和分析。
严格的速率限制：基于IP、用户Token等多维度实施严格的请求频率限制，防止自动化攻击工具进行大规模枚举测试。
定期安全审计与模糊测试：将自己视为攻击者，定期对服务接口进行全面的模糊测试，特别是每次代码更新后。可以使用AFL、Burp Scanner等自动化工具辅助，但手工测试的深度不可替代。
监控与告警：建立监控机制，对短时间内生成大量短链接、或生成的短链接指向新出现或非常见域名的行为进行告警。

安全是一个持续的过程，而非一劳永逸的状态。对xxx.sru.baidu.com/xx/这类接口的分析，其价值不在于找到一个具体的漏洞，而在于掌握一套分析公共API安全边界的思维方法和实战流程。真正的安全高手，脑子里时刻运行着两套代码：一套是正常的功能逻辑，另一套则是“如果我是攻击者，我会怎么打破它”。保持这种双线思维，才能在漏洞被利用之前，就先一步发现并修复它。