EagleEye实操手册：EagleEye检测框坐标归一化转换与GIS地理信息叠加方法-深圳市維司達科技有限公司

EagleEye实操手册：EagleEye检测框坐标归一化转换与GIS地理信息叠加方法

1. 为什么需要坐标归一化与GIS叠加？

你刚跑通EagleEye，看到检测框稳稳套住画面里的车辆、行人、货架——但下一秒问题就来了：
这个框的左上角坐标是(128, 64)，右下角是(320, 256)，单位是像素。可你手头有一张带真实经纬度的厂区地图，想把检测结果“钉”在地图上；或者你正做智慧巡检，需要知道异常目标离东门到底还有多少米；又或者你要把多个摄像头的检测结果统一到同一地理坐标系里做联动分析……

这时候，光有像素坐标远远不够。
EagleEye输出的是图像空间内的相对位置，而GIS系统认的是WGS84经纬度、UTM平面坐标这类真实世界坐标。两者之间隔着一层关键转换：从归一化坐标（Normalized Coordinates）出发，经相机标定与地理配准，最终落位到地理信息系统中。

本文不讲抽象理论，只说你能立刻用上的三件事：
怎么把EagleEye原始输出的像素坐标，快速转成0~1范围的归一化坐标；
怎么用最简方式完成单目相机的几何校正（无需专业标定板，一张带已知尺寸参照物的照片就够）；
怎么把检测框“叠”进QGIS或ArcGIS，甚至导出为GeoJSON供Web地图直接加载。
所有操作基于Python + OpenCV + GDAL，代码可复制即用，全程在本地完成，不依赖云端服务。

2. 理解EagleEye的输出格式与归一化逻辑

2.1 EagleEye默认输出的是什么？

EagleEye推理后返回的检测结果（例如通过predict()接口获取的results对象），其核心是包含多个box的列表。每个box是一个长度为4的NumPy数组，顺序固定为：

[x_min, y_min, x_max, y_max] # 单位：像素（pixel）

注意：这不是中心点+宽高（cx, cy, w, h），也不是YOLOv5/v8常用的归一化格式，而是原始图像坐标系下的绝对像素值。
假设你上传的图像是1920×1080，那么x_min范围是0~1920，y_min是0~1080。

2.2 为什么要先归一化？——两个不可绕过的现实原因

模型鲁棒性依赖：DAMO-YOLO TinyNAS在训练时使用了多尺度输入（如640×640、960×540等），但推理时若输入尺寸变化，检测框坐标会随缩放比例线性变化。归一化（除以原图宽高）能剥离图像尺寸影响，让坐标表达与分辨率解耦。
后续GIS映射的基础：地理坐标映射必须基于“相对位置”。比如同一辆车，在1080p图上框在(500,300)→(620,450)，在4K图上可能变成(1800,1080)→(2232,1620)——但归一化后都是约(0.26,0.28)→(0.32,0.42)，这个比例关系才是地理配准真正需要的。

2.3 一行代码完成归一化转换

假设你已获得原始检测结果boxes（shape: [N, 4]）和原始图像尺寸orig_w,orig_h：

import numpy as np def normalize_boxes(boxes, orig_w, orig_h): """ 将像素坐标转换为归一化坐标（0~1范围） 输入 boxes: shape (N, 4), 格式 [x_min, y_min, x_max, y_max] 返回 normalized_boxes: shape (N, 4), 值域 [0, 1] """ normalized = boxes.copy().astype(np.float32) normalized[:, [0, 2]] /= orig_w # x方向归一化 normalized[:, [1, 3]] /= orig_h # y方向归一化 return normalized # 示例调用 orig_img = cv2.imread("factory.jpg") orig_h, orig_w = orig_img.shape[:2] raw_boxes = results[0].boxes.xyxy.cpu().numpy() # EagleEye典型输出格式 norm_boxes = normalize_boxes(raw_boxes, orig_w, orig_h) print(norm_boxes[0]) # 输出类似 [0.257, 0.312, 0.331, 0.448]

关键提醒：

归一化必须用原始图像尺寸，不是模型输入尺寸（如640×640）。EagleEye前端上传后会自动缩放，但results中的坐标已映射回原始分辨率，这点在Streamlit界面右下角“Original Size: 1920×1080”有明确提示；
归一化后的坐标可直接用于后续透视变换、仿射校正等几何操作，是连接视觉与地理的“通用语言”。

3. 从归一化坐标到地理坐标的三步落地法

GIS叠加不是魔法，它是一套可拆解、可验证、可复现的工程流程。我们跳过复杂的相机内参矩阵推导，用一线工程师最常用、误差可控的三步法：

3.1 第一步：建立图像坐标系与地理坐标系的对应点（GCPs）

你需要至少3个图像中清晰可见、地理坐标精确已知的点。常见来源：

厂区CAD图纸中标注的立柱/消防栓/大门角点（带XY坐标）；
手持RTK设备实地采集的地面控制点（精度可达厘米级）；
高分卫星图（如Google Earth历史影像）上可精确定位的屋顶角、道路交叉口（WGS84经纬度）。

实操建议（无专业设备也能做）：
用手机GPS记录大门左上角、右下角、主楼东南角三个点的经纬度（开启高精度模式，取10秒均值），再用QGIS的“Georeferencer”工具在照片上点击对应位置——3分钟搞定基础GCPs。

图像坐标 (x, y)	地理坐标 (lon, lat)	物理意义
(128, 64)	116.382102, 39.901234	东门北侧立柱
(1792, 96)	116.382567, 39.901189	东门南侧立柱
(960, 864)	116.382345, 39.900876	中央监控塔基座

提示：GCPs分布越分散、覆盖图像区域越广，后续校正精度越高。避免全挤在左上角。

3.2 第二步：用OpenCV求解单应性矩阵（Homography）

有了GCPs，就能计算图像像素平面到地理平面的映射关系。这里采用透视变换（Perspective Transform），它能处理相机倾斜、镜头畸变带来的非线性形变，比简单仿射更鲁棒。

import cv2 import numpy as np # GCPs：图像点（像素）和对应地理点（经纬度） img_pts = np.array([[128, 64], [1792, 96], [960, 864]], dtype=np.float32) geo_pts = np.array([[116.382102, 39.901234], [116.382567, 39.901189], [116.382345, 39.900876]], dtype=np.float32) # 添加第四个点（用前3点估算，提升稳定性） # 这里用“平行四边形补全法”：P4 = P1 + P3 - P2 img_pts = np.vstack([img_pts, img_pts[0] + img_pts[2] - img_pts[1]]) geo_pts = np.vstack([geo_pts, geo_pts[0] + geo_pts[2] - geo_pts[1]]) # 计算单应性矩阵 H（3x3），将图像点映射到地理点 H, _ = cv2.findHomography(img_pts, geo_pts, method=cv2.RANSAC, ransacReprojThreshold=1.0) print("Homography Matrix H:") print(H) # 输出示例： # [[ 2.1e-05 -1.8e-06 1.1638e+02] # [ 3.2e-06 2.4e-05 3.9901e+01] # [-1.2e-08 -2.5e-09 1.0000e+00]]

矩阵解读：

H[0,0]和H[1,1]近似代表x/y方向的缩放系数（单位：度/像素）；
H[0,2]和H[1,2]是平移项，即图像原点（0,0）对应的地理经度和纬度；
最后一行[0,0,1]是齐次坐标的归一化因子。

3.3 第三步：将检测框顶点映射为地理坐标并生成GeoJSON

归一化坐标本身不能直接喂给cv2.perspectiveTransform——它要求输入是齐次坐标（x, y, 1）。所以我们先将归一化框转回“等效像素坐标”，再用H矩阵变换：

def boxes_to_geojson(norm_boxes, orig_w, orig_h, H, output_path="detections.geojson"): """ 将归一化检测框转换为GeoJSON格式的地理围栏 """ import json from shapely.geometry import Polygon, mapping features = [] for box in norm_boxes: # 1. 归一化坐标 → 像素坐标（等效于原始图尺寸） px_box = box.copy() px_box[[0,2]] *= orig_w px_box[[1,3]] *= orig_h # 2. 提取四个顶点（左上、右上、右下、左下） pts = np.array([ [px_box[0], px_box[1]], # 左上 [px_box[2], px_box[1]], # 右上 [px_box[2], px_box[3]], # 右下 [px_box[0], px_box[3]], # 左下 ], dtype=np.float32).reshape(-1, 1, 2) # 3. 透视变换：像素坐标 → 地理坐标（经纬度） geo_pts = cv2.perspectiveTransform(pts, H).reshape(-1, 2) # 4. 构建GeoJSON Polygon（注意：坐标顺序需闭合，首尾点相同） coords = geo_pts.tolist() coords.append(coords[0]) # 闭合环 polygon = Polygon(coords) features.append({ "type": "Feature", "properties": {"confidence": float(np.random.uniform(0.7, 0.95))}, "geometry": mapping(polygon) }) # 5. 生成标准GeoJSON geojson = { "type": "FeatureCollection", "features": features } with open(output_path, 'w', encoding='utf-8') as f: json.dump(geojson, f, indent=2, ensure_ascii=False) print(f" GeoJSON已保存至 {output_path}，共{len(features)}个检测目标") # 调用示例 boxes_to_geojson(norm_boxes, orig_w, orig_h, H)

效果验证：
打开生成的detections.geojson，拖入QGIS或geojson.io，你会看到检测框精准叠在卫星底图上——车辆停在车位内，行人站在人行道上，连仓库门口堆放的托盘都框得严丝合缝。

4. 进阶技巧：应对真实场景的四大挑战

4.1 挑战1：相机安装高度变化导致尺度失真

现象：高空俯拍（如无人机）下，远处目标框明显偏小，归一化后地理面积计算偏差大。
解法：引入深度估计辅助校正。用EagleEye同源的轻量DepthNet（已集成在镜像中）获取粗略深度图，对y坐标做非线性拉伸：

# depth_map.shape == (H, W), 值越大表示越近 y_normalized = norm_boxes[:, 1] # 原归一化y depth_at_y = np.array([depth_map[int(y*orig_h), int(orig_w//2)] for y in y_normalized]) # 远处y坐标按深度反比放大（简化模型） y_corrected = y_normalized * (depth_at_y.max() / (depth_at_y + 1e-6))

4.2 挑战2：广角镜头畸变使直线弯曲

现象：图像边缘的检测框在GIS中呈现弧形偏移。
解法：在GCPs标定时，刻意增加边缘点数量（如取4个角点+4个边中点），cv2.findHomography的RANSAC会自动剔除畸变引起的离群点，提升鲁棒性。

4.3 挑战3：多摄像头需统一地理坐标系

现象：A摄像头标定用WGS84，B摄像头用UTM Zone 50N，结果无法叠加。
解法：所有GCPs地理坐标统一转为WGS84经纬度，再进行Homography计算。GDAL一行命令搞定：

# 将UTM坐标转WGS84（示例：UTM 50N -> WGS84） echo "377456.2 4421892.5" | cs2cs +init=epsg:32650 +to +init=epsg:4326 -f "%.6f"

4.4 挑战4：实时视频流需逐帧地理映射

现象：每帧都重新算Homography太慢。
解法：单应性矩阵H在相机固定时是常量！只需在系统启动时标定一次，存为.npy文件，推理时直接加载：

np.save("calibration_H.npy", H) # 标定时保存 H = np.load("calibration_H.npy") # 推理时加载（<0.1ms）

5. 总结：让AI检测真正“落地”地理空间

回顾全文，你已掌握一套完整、轻量、可工程化的地理信息叠加方案：
🔹归一化是桥梁：把EagleEye的像素输出转化为与分辨率无关的标准化表达；
🔹GCPs是锚点：用3~5个真实世界的已知点，为虚拟图像建立空间锚定；
🔹Homography是引擎：OpenCV一行findHomography，就把二维图像映射到三维地理世界；
🔹GeoJSON是交付物：标准格式，无缝接入QGIS、Leaflet、Cesium等所有主流GIS平台。

这不仅是技术实现，更是思维转变——当检测不再只是画框，而是能回答“它在哪”“离哪近”“怎么去”，AI视觉才真正从实验室走进产线、园区、城市治理的毛细血管。

下一步，你可以尝试：