单目深度估计教程：MiDaS模型输入预处理详解-深圳市維司達科技有限公司

单目深度估计教程：MiDaS模型输入预处理详解

1. 引言：走进3D感知的AI之眼

1.1 AI 单目深度估计 —— 让2D图像“看见”深度

在计算机视觉领域，单目深度估计（Monocular Depth Estimation）是一项极具挑战性的任务：仅凭一张普通的2D照片，推断出场景中每个像素点到摄像机的相对距离。这项技术是自动驾驶、AR/VR、机器人导航和3D重建等应用的核心基础。

传统方法依赖双目视觉或激光雷达获取深度信息，但成本高、部署复杂。而基于深度学习的单目深度估计模型，如Intel ISL 实验室发布的 MiDaS（Mixed Data Set），通过在大规模混合数据集上训练，实现了从单一图像中高效、准确地预测深度图的能力。

1.2 MiDaS 3D感知版项目定位

本文聚焦于一个轻量级、高稳定性的MiDaS 深度估计服务镜像，其核心优势在于：

✅ 基于官方 PyTorch Hub 模型源，无需 ModelScope Token 验证
✅ 集成 WebUI 界面，操作直观，支持本地上传与实时推理
✅ 使用MiDaS_small模型，专为 CPU 推理优化，资源占用低
✅ 输出高质量 Inferno 色彩映射热力图，近处暖色（红/黄），远处冷色（紫/黑）

本教程将重点解析MiDaS 模型的输入预处理流程—— 这一环节直接决定了模型能否正确理解图像内容并输出稳定可靠的深度图。

2. MiDaS模型输入预处理全流程解析

2.1 输入预处理的核心作用

尽管 MiDaS 提供了强大的泛化能力，但其对输入图像的格式、尺寸和归一化方式有严格要求。输入预处理的目的是将任意来源的图像转换为模型期望的标准张量格式，确保推理过程稳定、结果可复现。

关键步骤包括： - 图像读取与色彩空间转换 - 尺寸缩放与保持纵横比 - 归一化与张量转换 - 批次维度添加与设备迁移

下面我们逐项拆解。

2.2 步骤一：图像加载与色彩空间处理

MiDaS 模型在训练时使用的是RGB 格式图像，而 OpenCV 默认以 BGR 格式读取图像。因此，必须进行色彩通道转换。

import cv2 import torch import numpy as np def load_image(image_path): # 使用OpenCV读取图像（BGR） img = cv2.imread(image_path) if img is None: raise ValueError(f"无法读取图像: {image_path}") # 转换为RGB img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB) return img_rgb

🔍注意：若通过 WebUI 接收用户上传文件，通常会以bytes流形式传入，需先用np.frombuffer()解码。

2.3 步骤二：保持纵横比的图像缩放

MiDaS 对输入尺寸有一定灵活性，但推荐使用固定分辨率以保证性能一致性。官方建议使用384x384（适用于MiDaS_small），且应保持原始图像的宽高比，避免拉伸失真。

我们采用“填充黑边”的方式实现等比缩放：

def resize_with_aspect_ratio(image, target_size=384): h, w = image.shape[:2] scale = target_size / max(h, w) # 缩放比例 new_w, new_h = int(w * scale), int(h * scale) # 使用cv2.INTER_AREA进行下采样（更高效） resized = cv2.resize(image, (new_w, new_h), interpolation=cv2.INTER_AREA) # 创建目标大小的黑色画布 padded = np.zeros((target_size, target_size, 3), dtype=np.uint8) # 居中粘贴缩放后的图像 pad_h_start = (target_size - new_h) // 2 pad_w_start = (target_size - new_w) // 2 padded[pad_h_start:pad_h_start+new_h, pad_w_start:pad_w_start+new_w] = resized return padded

📌技巧提示：居中填充优于拉伸变形，能显著提升边缘区域的深度预测准确性。

2.4 步骤三：归一化与张量转换

MiDaS 使用 ImageNet 预训练的归一化参数，输入需按以下标准进行归一化：

像素值范围：[0, 255] → [0.0, 1.0]
减去均值：[0.485, 0.456, 0.406]
除以标准差：[0.229, 0.224, 0.225]

from torchvision import transforms def preprocess_image(image): # 转换为浮点型并归一化到[0,1] image = image.astype(np.float32) / 255.0 # 应用标准化 transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]), ]) # ToTensor() 自动将HWC→CHW，并转为Tensor tensor = transform(image) # 添加批次维度: (C,H,W) -> (1,C,H,W) tensor = tensor.unsqueeze(0) return tensor # shape: [1, 3, 384, 384]

⚠️常见错误：跳过归一化或使用错误的 mean/std 会导致深度图出现大面积噪声或完全失效。

2.5 完整预处理函数整合

将上述步骤封装为一个完整的预处理流水线：

def prepare_input(image_path, target_size=384): image = load_image(image_path) image_resized = resize_with_aspect_ratio(image, target_size) input_tensor = preprocess_image(image_resized) return input_tensor

该函数输出即为可送入 MiDaS 模型的标准输入张量。

3. WebUI集成中的预处理实践

3.1 处理用户上传图像流

在 Flask 或 Gradio 类 WebUI 中，图像常以FileStorage对象传递。以下是适配代码示例：

import io from PIL import Image def process_uploaded_image(file_storage): # 将上传文件转为字节流 file_bytes = np.frombuffer(file_storage.read(), np.uint8) img_bgr = cv2.imdecode(file_bytes, cv2.IMREAD_COLOR) # 转RGB img_rgb = cv2.cvtColor(img_bgr, cv2.COLOR_BGR2RGB) # 等比缩放+填充 img_padded = resize_with_aspect_ratio(img_rgb, 384) # 归一化+转张量 transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]) tensor = transform(img_padded).unsqueeze(0) return tensor

3.2 推理与后处理可视化

调用模型并生成热力图：

import matplotlib.pyplot as plt # 加载模型 model = torch.hub.load("intel-isl/MiDaS", "MiDaS_small") model.eval() # 推理 with torch.no_grad(): prediction = model(tensor) # shape: [1, 384, 384] # 取出深度图并反转（远→暗，近→亮） depth_map = prediction.squeeze().cpu().numpy() depth_map = cv2.flip(depth_map, 1) # 可选：水平翻转增强视觉效果 # 归一化到0-255用于显示 depth_visual = cv2.normalize(depth_map, None, 0, 255, cv2.NORM_MINMAX) depth_visual = np.uint8(depth_visual) # 应用Inferno色彩映射 color_depth = cv2.applyColorMap(depth_visual, cv2.COLORMAP_INFERNO) # 保存或返回 cv2.imwrite("output_depth.png", color_depth)

🎨视觉优化建议： - 使用cv2.COLORMAP_INFERNO或cv2.COLORMAP_MAGMA可获得更自然的渐变效果 - 可叠加原图透明融合，便于对比分析

4. 常见问题与避坑指南

4.1 输入尺寸不匹配导致的异常

现象：模型报错expected scalar type Float but found Double
原因：未将 NumPy 数组转为 float32，或未正确归一化
解决方案：始终确保image.astype(np.float32) / 255.0

4.2 黑边区域影响深度预测？

疑问：填充的黑边是否会被误判为“远处”？
回答：不会。MiDaS 在训练时见过大量带边框的数据，且黑边区域无纹理特征，通常被合理推断为背景延伸。实验表明，居中填充比拉伸变形更能保持整体结构一致性。

4.3 CPU推理速度优化建议

使用torch.set_num_threads(N)设置多线程（N=4~8）
启用torch.jit.trace()对模型进行脚本化加速
避免频繁 GPU-CPU 数据拷贝（本项目纯CPU运行天然规避此问题）

5. 总结

5.1 技术价值回顾

本文系统讲解了MiDaS 模型在实际部署中的输入预处理全流程，涵盖：

图像加载与色彩空间校正
保持纵横比的智能缩放策略
符合 ImageNet 标准的归一化处理
WebUI 场景下的完整集成方案

这些细节虽小，却是构建稳定、高精度深度估计服务的关键基石。

5.2 最佳实践建议

始终使用等比缩放+填充，避免图像畸变影响深度连续性；
严格遵循官方归一化参数，不可省略或随意修改；
在 CPU 环境优先选用MiDaS_small，兼顾速度与精度；
输出热力图时选择 Inferno 色彩映射，提升可读性与科技感。

掌握这些预处理技巧，你已具备将 MiDaS 快速集成到各类 3D 感知项目中的核心能力。

💡获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

单目深度估计教程：MiDaS模型输入预处理详解