航拍影像+公开数据驱动的违建智能识别方案-深圳市維司達科技有限公司

1. 项目概述：用航拍影像+公开数据揪出违建，不是概念，是能落地的市政巡查新路径

你有没有见过那种突然冒出来的彩钢板房？或者在农田里硬生生“长”出的三层小楼？这类未经审批擅自建设的房屋，在城市更新、耕地保护和规划执法中一直是块难啃的骨头。传统靠人工巡查，效率低、覆盖差、滞后性强；靠群众举报，又存在盲区和主观偏差。而这篇内容讲的，不是PPT里的技术愿景，而是我去年在参与某地自然资源局试点项目时，真正跑通的一套方法：用公开可获取的正射影像（orthophoto）+政府已有的不动产登记/规划许可数据库+轻量级深度学习模型，自动识别疑似违法建设目标。关键词里提到的“Towards AI”，只是原始文章发布平台，但核心价值完全不依赖它——整套流程所用的数据源全部来自国家地理信息公共服务平台、省级自然资源厅公开目录、以及地方政府官网公示的许可清单；模型训练和推理全程在本地服务器完成，不调用任何外部API，也不上传敏感影像。它解决的不是“能不能做”的问题，而是“怎么用最低成本、最短周期、最小技术门槛，在基层单位快速部署一套可用的初筛工具”。适合三类人：一线规划监察人员想提升巡查效率，GIS工程师需要可复用的技术方案，还有高校团队做空间智能方向研究时，需要一个真实、完整、有数据闭环的实践案例。它不追求99%的识别精度（那需要海量标注和算力），而是聚焦在把漏报率压到30%以下，把人工复核工作量减少60%以上——这才是基层真正需要的“够用就好”的技术。

2. 整体设计思路与方案选型逻辑：为什么放弃“端到端大模型”，选择“数据驱动+轻模型”组合

2.1 核心矛盾拆解：精度、成本、落地性，三者不可兼得

刚接手这个任务时，第一反应是上YOLOv8或Mask R-CNN这种SOTA模型。但很快就被现实按在地上摩擦：我们拿到的首批正射影像，是2022年某市1:500比例尺的DOM，单张分辨率达12000×8000像素，整幅图近100MB；全市共127个街道，影像总量超15TB。如果真用大模型逐像素分割，光是预处理（切片、归一化、增强）就要跑一周，更别说训练——没有A100集群，根本别想动。更重要的是，违建识别的本质不是“找房子”，而是“找变化”和“找矛盾”。一栋2015年就存在的砖混住宅，哪怕没办证，也不属于当前执法重点；而2023年6月在基本农田上新起的钢结构厂房，哪怕只盖了地基，就是高优先级目标。所以，纯靠图像识别“像不像违建”，准确率天然受限；必须把时间维度（变化检测）和属性维度（许可状态）嵌进去，形成交叉验证。

2.2 最终方案：三层漏斗式过滤架构

我们最终放弃“一招鲜”，转而构建了一个三级漏斗：

第一层：变化检测（Change Detection）
用2021年和2023年的两期正射影像做差分。这里没用复杂的Siamese网络，而是采用改进的归一化差异建筑指数（NDBI）时序差值法。原理很简单：建筑区域在NDBI波段（近红外-红光）/（近红外+红光）上数值稳定偏高，而植被、裸土波动大。计算两期NDBI图的绝对差值，再设阈值（实测0.12效果最佳），就能圈出“可能新增”的图斑。这步不依赖深度学习，OpenCV几行代码搞定，全市影像批处理只要4小时。
第二层：空间匹配（Spatial Matching）
把第一层输出的所有“新增图斑”，叠加上官方发布的《建设工程规划许可证》矢量图层（Shapefile格式）。关键点来了：我们不查“有没有证”，而是查“证的范围是否覆盖图斑”。用GEOS库做精确的空间包含判断（ST_Contains(permit_geom, new_building_geom)），凡是没有被任何有效许可多边形完全覆盖的图斑，全部打入“待复核池”。这步规避了文本匹配的歧义（比如许可证写“XX路88号”，但系统里录成“XX路捌拾捌号”），直接用空间关系说话。
第三层：轻量视觉验证（Lightweight Visual Verification）
对第二层筛出的图斑，裁剪出512×512像素的局部影像块，输入一个自己训练的ResNet-18二分类模型（仅区分“典型违建特征”vs“非违建”）。模型不学“房子是什么”，只学三个强判据：① 屋顶材质异常（彩钢板反光强、无瓦片纹理）；② 建筑形态突兀（如农田中孤立三层方盒子）；③ 周边环境不协调（硬化地面面积远超建筑基底）。这个模型在2000张人工标注样本上训练，F1-score达0.86，推理速度单图45ms，GTX1060显卡就能跑满。

提示：这套架构的核心优势是“可解释、可审计、可回溯”。每个疑似违建目标，系统都能输出三份证据：变化热力图坐标、未覆盖的许可ID、视觉分类置信度。执法人员拿着截图去现场，一句话就能说清“为什么盯上你”。

2.3 为什么不用语义分割？——一个血泪教训

我们最早试过用DeepLabV3+做建筑提取，结果发现：模型把所有灰色矩形都标成“建筑”，包括变电站、广告牌、甚至大型集装箱。因为训练数据里没给这些干扰项打标签，模型就默认“灰色+矩形=房子”。后来补标了3000张干扰图，精度上去了，但漏掉了真正的违建——因为很多违建屋顶是绿色防水卷材，颜色接近植被，模型直接忽略。深度学习不是万能钥匙，它放大的是数据缺陷，而不是业务逻辑。所以最终砍掉分割，回归到“变化+许可+特征”三重校验，反而更稳。

3. 核心细节解析与实操要点：从数据准备到模型训练的硬核细节

3.1 数据源获取与预处理：公开数据怎么用才不踩坑

所有数据均来自政府公开渠道，但“公开”不等于“开箱即用”，中间有大量清洗工作：

正射影像（DOM）：
从省级地理信息公共服务平台下载，格式为GeoTIFF。关键陷阱：不同年份影像的坐标系可能不一致！2021年用的是CGCS2000，2023年升级为2000国家大地坐标系（本质相同但参数微调）。我们用GDAL的gdalwarp命令强制统一到EPSG:4490，并用gdal_translate -co TILED=YES -co COMPRESS=LZW压缩，体积减少65%，读取速度提升3倍。
规划许可矢量数据：
地方自然资源局官网的“许可公示”栏目，通常只提供PDF扫描件。我们用pdfplumber提取文字，再结合正则匹配“建设项目名称”、“建设位置”、“用地面积”等字段；对带附图的PDF，用poppler-utils转为PNG，再用OpenCV识别图中红色许可范围线，生成简易面要素。虽然精度不如原始CAD，但对初筛足够——毕竟后续还有空间匹配校验。
不动产登记数据：
部分地区开放了JSON接口（如https://xx.gov.cn/api/real_estate?area=xxx），但返回字段极不规范。我们写了个标准化中间件：统一将“权利人”映射为owner，“坐落”映射为address，“登记时间”转为ISO8601格式。特别注意：同一栋楼可能有多个登记单元（如商铺+住宅），需按building_id聚合，避免重复计数。

注意：所有数据下载后，必须做完整性校验。我们用sha256sum生成哈希值存档，每次分析前比对。曾因某区DOM文件下载中断导致17%图斑错位，靠哈希值3分钟定位问题。

3.2 变化检测的参数选择：0.12这个阈值是怎么算出来的

NDBI差值阈值不是拍脑袋定的。我们做了三组实验：

在5个典型区域（城中村、工业园、农田、林地、老旧小区）各取100个已知新增违建点，计算其NDBI差值均值；
同样取100个已知无变化点（如老城区固定建筑），计算差值均值；
绘制ROC曲线，横轴是误报率（把正常变化当违建），纵轴是召回率（抓到真实违建）。

结果发现：阈值0.10时召回率92%，但误报率高达41%（太多树影、车流被误判）；阈值0.15时误报率压到18%，但召回率跌至63%（漏掉大量轻钢棚房）。0.12是平衡点：召回率85.3%，误报率26.7%，且人工复核时，每10个报警里平均有7个是真目标。这个数字背后是237小时的人工标注和交叉验证。

3.3 轻量模型训练的关键技巧：小数据如何训出高鲁棒性

ResNet-18只有1100万参数，但我们的标注数据仅2000张。为防过拟合，用了三招：

动态难度采样（Dynamic Hard Example Mining）：
训练初期，随机采样；当验证集准确率>75%后，系统自动筛选预测概率在0.4~0.6之间的“模糊样本”（即模型拿不准的图），下轮训练中将其采样权重提高3倍。这招让模型在后期专注攻克难点，F1-score提升11%。
物理约束增强（Physics-Guided Augmentation）：
普通旋转、缩放会破坏建筑结构真实性。我们只做两类增强：① 模拟不同光照：用cv2.LUT查表调整亮度曲线，模拟清晨/正午/黄昏；② 模拟拍摄角度：用cv2.warpPerspective做±5°俯仰变换（真实航拍不可能垂直90°，必有倾角）。其他增强一律禁用。
损失函数定制：
不用交叉熵，改用Focal Loss + 类别权重。因为违建样本只占12%，加权后正样本损失放大8倍，模型不再“懒惰”地全判负样本。

训练代码核心片段（PyTorch）：

# 定义Focal Loss class FocalLoss(nn.Module): def __init__(self, alpha=1, gamma=2, reduction='mean'): super().__init__() self.alpha = alpha self.gamma = gamma self.reduction = reduction def forward(self, inputs, targets): ce_loss = F.cross_entropy(inputs, targets, reduction='none') pt = torch.exp(-ce_loss) focal_weight = (1 - pt) ** self.gamma loss = self.alpha * focal_weight * ce_loss return loss.mean() if self.reduction == 'mean' else loss.sum() # 实例化时设置alpha=8（正样本权重） criterion = FocalLoss(alpha=8, gamma=2)

4. 实操过程与核心环节实现：从零开始跑通全流程的完整步骤

4.1 环境搭建与依赖安装：避坑指南

操作系统：Ubuntu 20.04 LTS（CentOS 7因GLIBC版本太低，无法运行新版GDAL）
GPU：NVIDIA GTX 1060 6GB（实测显存占用峰值3.2GB，RTX3060更佳）

关键依赖安装顺序（错一步就编译失败）：

先装CUDA 11.2（适配PyTorch 1.10）：sudo apt install nvidia-cuda-toolkit

再装GDAL 3.4.3（必须源码编译，apt仓库版本太旧）：

wget https://download.osgeo.org/gdal/3.4.3/gdal-3.4.3.tar.gz tar -xzf gdal-3.4.3.tar.gz cd gdal-3.4.3 ./configure --with-python --with-proj=/usr --with-spatialite=yes make -j$(nproc) && sudo make install

最后装Python包（用conda环境隔离）：

conda create -n illegal_construction python=3.8 conda activate illegal_construction pip install torch==1.10.0+cu113 torchvision==0.11.1+cu113 -f https://download.pytorch.org/whl/torch_stable.html pip install gdal==3.4.3 opencv-python==4.5.5.64 scikit-learn==1.0.2 shapely==1.8.0

注意：GDAL编译时若报proj_api.h not found，说明PROJ库路径没指定对，用find /usr -name "proj_api.h"找到路径后，在./configure里加--with-proj=/usr/include/proj。

4.2 全流程代码实现：可直接复制运行的主干逻辑

以下为简化后的主流程脚本（run_pipeline.py），已去除业务敏感路径，保留全部核心逻辑：

import os import numpy as np import cv2 import gdal from shapely.geometry import Polygon, Point from shapely.ops import unary_union import geopandas as gpd from sklearn.metrics import f1_score # ==================== 步骤1：变化检测 ==================== def detect_change(dom_2021_path, dom_2023_path, output_dir): """输入两期DOM，输出变化图斑的GeoJSON""" # 读取影像并计算NDBI def calc_ndbi(ds): red = ds.GetRasterBand(1).ReadAsArray().astype(np.float32) nir = ds.GetRasterBand(4).ReadAsArray().astype(np.float32) # 假设第4波段是近红外 ndbi = (nir - red) / (nir + red + 1e-8) return ndbi ds_2021 = gdal.Open(dom_2021_path) ds_2023 = gdal.Open(dom_2023_path) ndbi_2021 = calc_ndbi(ds_2021) ndbi_2023 = calc_ndbi(ds_2023) # 计算差值并阈值分割 diff = np.abs(ndbi_2023 - ndbi_2021) mask = (diff > 0.12).astype(np.uint8) # 连通域分析，生成图斑 num_labels, labels = cv2.connectedComponents(mask) polygons = [] for i in range(1, num_labels): contour, _ = cv2.findContours((labels == i).astype(np.uint8), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE) if len(contour) > 0: # 将像素坐标转为地理坐标 x_min, y_min = ds_2023.GetGeoTransform()[0], ds_2023.GetGeoTransform()[3] pixel_width, pixel_height = ds_2023.GetGeoTransform()[1], ds_2023.GetGeoTransform()[5] coords = [(x_min + c[0][0] * pixel_width, y_min + c[0][1] * pixel_height) for c in contour[0]] if len(coords) >= 4: polygons.append(Polygon(coords)) # 保存为GeoJSON gdf = gpd.GeoDataFrame({'id': range(len(polygons))}, geometry=polygons, crs=ds_2023.GetProjection()) gdf.to_file(os.path.join(output_dir, 'change_polygons.geojson'), driver='GeoJSON') return gdf # ==================== 步骤2：空间匹配 ==================== def spatial_match(change_gdf, permit_shp_path, output_path): """输入变化图斑和许可矢量，输出未被覆盖的图斑""" permit_gdf = gpd.read_file(permit_shp_path) # 空间连接：找出每个变化图斑是否被任一许可覆盖 change_gdf['covered'] = False for _, permit_row in permit_gdf.iterrows(): # ST_Contains：许可多边形是否完全包含变化图斑 covered_mask = change_gdf.geometry.apply( lambda geom: permit_row.geometry.contains(geom) or permit_row.geometry.covers(geom) ) change_gdf.loc[covered_mask, 'covered'] = True # 输出未覆盖图斑 illegal_gdf = change_gdf[~change_gdf['covered']].copy() illegal_gdf.to_file(output_path, driver='GeoJSON') return illegal_gdf # ==================== 步骤3：视觉验证 ==================== def visual_verify(illegal_gdf, dom_2023_path, model_path, threshold=0.7): """对未覆盖图斑做CNN验证，返回高置信度目标""" from torch.utils.data import Dataset, DataLoader import torch class PatchDataset(Dataset): def __init__(self, gdf, dom_path, transform=None): self.gdf = gdf self.ds = gdal.Open(dom_path) self.transform = transform def __len__(self): return len(self.gdf) def __getitem__(self, idx): geom = self.gdf.iloc[idx].geometry # 获取几何中心点 center = geom.centroid # 转换为像素坐标 gt = self.ds.GetGeoTransform() px = int((center.x - gt[0]) / gt[1]) py = int((center.y - gt[3]) / gt[5]) # 裁剪512x512块 patch = self.ds.ReadAsArray(px-256, py-256, 512, 512) patch = np.transpose(patch, (1, 2, 0)) # CHW -> HWC if self.transform: patch = self.transform(patch) return patch # 加载模型和数据 model = torch.load(model_path) model.eval() dataset = PatchDataset(illegal_gdf, dom_2023_path) loader = DataLoader(dataset, batch_size=16, shuffle=False) results = [] with torch.no_grad(): for patches in loader: outputs = model(patches) probs = torch.softmax(outputs, dim=1) results.extend(probs[:, 1].cpu().numpy()) # 取违建类别概率 # 筛选高置信度目标 illegal_gdf['confidence'] = results high_conf = illegal_gdf[illegal_gdf['confidence'] > threshold] return high_conf # ==================== 主流程 ==================== if __name__ == "__main__": DOM_2021 = "/data/dom_2021.tif" DOM_2023 = "/data/dom_2023.tif" PERMIT_SHP = "/data/permits.shp" OUTPUT_DIR = "/output" print("Step 1: Detecting changes...") change_gdf = detect_change(DOM_2021, DOM_2023, OUTPUT_DIR) print("Step 2: Spatial matching with permits...") illegal_gdf = spatial_match(change_gdf, PERMIT_SHP, os.path.join(OUTPUT_DIR, 'illegal_candidates.geojson')) print("Step 3: Visual verification with CNN...") final_targets = visual_verify(illegal_gdf, DOM_2023, "/models/resnet18_illegal.pth") final_targets.to_file(os.path.join(OUTPUT_DIR, 'final_targets.geojson'), driver='GeoJSON') print(f"✅ Done! Found {len(final_targets)} high-confidence illegal construction targets.")

4.3 关键参数配置表：不同场景下的推荐值

参数	默认值	城中村适用值	工业园区适用值	农田适用值	调整依据
NDBI差值阈值	0.12	0.08	0.15	0.10	城中村建筑密集，微小变化也重要；工业园区建筑大，需更高阈值防误报
变化图斑最小面积	200㎡	50㎡	500㎡	100㎡	农田违建常为看护房，面积小；工业园违建多为厂房，面积大
视觉验证置信度阈值	0.7	0.6	0.75	0.65	工业园区建筑形态规整，模型易判；农田违建形态多样，需降低阈值
许可有效期判定	发证日期+5年	发证日期+3年	发证日期+10年	发证日期+2年	农田临时看护房许可期短，需更严格

5. 常见问题与排查技巧实录：那些文档里不会写的实战经验

5.1 问题速查表：从报错到解决方案

现象	可能原因	排查命令/方法	解决方案
`gdal.Open()`返回None	影像路径含中文或空格	`ls -la "/path/to/file.tif"`	用`urllib.parse.quote()`编码路径，或改用绝对路径
`cv2.findContours()`报错`(-215:Assertion failed)`	输入mask不是uint8类型	`print(mask.dtype)`	`mask = mask.astype(np.uint8)`强制转换
模型预测全为0	GPU未启用	`print(next(model.parameters()).is_cuda)`	在`model = torch.load(...)`后加`model.cuda()`
空间匹配结果为空	许可矢量与DOM坐标系不一致	`gdf.crs; ds.GetProjection()`	用`gdf.to_crs(dom_crs)`统一坐标系
变化图斑形状破碎	影像配准误差大	`gdal_translate -of VRT -a_srs EPSG:4490 input.tif vrt.vrt`	先用VRT虚拟文件做坐标系声明，再处理

5.2 三个血泪总结：基层落地时最痛的点

第一，数据时效性比算法精度重要十倍。
我们曾用一套95%精度的模型分析2020年影像，结果发现：其中73%的“疑似违建”，在2021年官方通报里已补办许可。而用2023年影像跑85%精度的模型，抓到的全是当期真问题。基层要的是“现在哪里有问题”，不是“历史上哪里可能有问题”。所以，我们把数据更新流程固化：每月5号自动从政务云拉取最新DOM，10号前完成全量分析，15号前生成报告。宁可模型简单点，也要保证数据新鲜。

第二，可视化比准确率更能说服领导。
最初给执法大队演示时，只展示GeoJSON坐标，对方一脸茫然。后来改成自动生成带红框标注的PNG图+Excel表格（含坐标、面积、周边地类、许可查询链接），领导当场拍板推广。技术人容易沉迷指标，但决策者需要“一眼看懂”。现在所有输出都带generate_report.py脚本，一键生成PDF简报。

第三，留痕比功能更重要。
所有分析步骤都记录日志：2023-06-15 14:22:03 [CHANGE] Processed tile (12, 34), detected 7 changes。当某个目标被质疑时，能立刻调出当时的NDBI差值图、许可匹配截图、模型输入patch，三份证据链闭环。在执法场景，可追溯性就是合规性。

5.3 扩展可能性：这套思路还能用在哪

这套“变化+许可+特征”的框架，本质是空间治理中的矛盾发现范式，稍作调整就能迁移到其他领域：

耕地“非粮化”监测：用2020/2023年影像做NDVI差值（植被指数），叠加永久基本农田矢量，筛出“绿变黄”（种树）或“绿变灰”（建房）的图斑，再用模型识别果树品种或硬化地面。
河道侵占识别：用汛期/枯水期DOM做水体指数（MNDWI）差值，叠加河湖管理范围线，找出被填埋或围垦的区域。
老旧小区改造进度跟踪：用季度影像做建筑轮廓变化检测，自动统计外立面完工率、加装电梯数量。

最后分享一个小技巧：所有影像处理，我们坚持“不做重采样”。宁可多花时间写适配不同分辨率的代码，也不把10cm影像插值成50cm——因为违建的彩钢板接缝、脚手架密度，往往就在那几厘米的细节里。技术可以妥协，但真相不能失真。