Alertmanager设置阈值告警当GPU显存超过90%-深圳市維司達科技有限公司

GPU显存超90%自动告警：基于Prometheus与轻量Python环境的实践

在深度学习训练任务频繁出现显存溢出（OOM）的某AI实验室里，运维团队每天要处理十几起因GPU内存耗尽导致的进程崩溃。一次关键模型训练中途失败，损失了近30小时计算资源——这成为他们构建自动化监控系统的直接导火索。

这类问题并非个例。随着大模型训练越来越普遍，单卡显存动辄被占满，多卡并行时更难掌控整体使用情况。靠人工巡检nvidia-smi输出显然不可持续，而现成的监控工具往往无法深入到显存级别的细粒度观测。真正的解决方案，必须能实时感知每张GPU的内存压力，并在风险发生前发出预警。

我们最终落地了一套基于Prometheus生态的轻量级监控体系：用一个仅包含Python 3.11和Conda的最小化环境运行自定义Exporter，将原始硬件数据转化为可编程指标；再通过PromQL规则判断是否超过90%阈值；最后由Alertmanager完成智能通知。整套流程从数据采集到告警触发控制在分钟级，且完全容器化部署，已在多个生产集群稳定运行数月。

如何让机器“看懂”nvidia-smi的输出

NVIDIA提供的nvidia-smi命令是获取GPU状态最直接的方式。但它的原始输出对程序不友好，比如：

$ nvidia-smi --query-gpu=index,memory.used,memory.total --format=csv,noheader,nounits 0, 10240, 24576 1, 8192, 24576

我们需要把它变成结构化数据。这里的关键不是简单地解析CSV——更重要的是设计合理的指标命名与标签体系，以便后续在Prometheus中做聚合分析。

实际工程中我们发现两个常见误区：一是把所有GPU的数据合并成一条时间序列，导致无法区分设备；二是忽略单位统一，造成计算偏差。正确的做法是为每个物理GPU创建独立的时间序列，并标注gpu="0"、gpu="1"这样的标签。

下面这段脚本就是我们的核心采集逻辑：

import subprocess from prometheus_client import start_http_server, Gauge import time import re GPU_MEMORY_USED = Gauge('gpu_memory_used', 'GPU memory used in MiB', ['gpu']) GPU_MEMORY_TOTAL = Gauge('gpu_memory_total', 'GPU memory total in MiB', ['gpu']) def collect_metrics(): try: result = subprocess.run([ 'nvidia-smi', '--query-gpu=index,memory.used,memory.total', '--format=csv,noheader,nounits' ], stdout=subprocess.PIPE, text=True, check=True) for line in result.stdout.strip().split('\n'): idx, used, total = re.split(r',\s*', line.strip()) GPU_MEMORY_USED.labels(gpu=idx).set(float(used)) GPU_MEMORY_TOTAL.labels(gpu=idx).set(float(total)) except Exception as e: print(f"采集失败: {e}") if __name__ == '__main__': start_http_server(8000) while True: collect_metrics() time.sleep(5)

这个Exporter暴露在:8000/metrics，返回的内容类似这样：

# HELP gpu_memory_used GPU memory used in MiB # TYPE gpu_memory_used gauge gpu_memory_used{gpu="0"} 10240 gpu_memory_used{gpu="1"} 8192 # HELP gpu_memory_total GPU memory total in MiB # TYPE gpu_memory_total gauge gpu_memory_total{gpu="0"} 24576 gpu_memory_total{gpu="1"} 24576

这种格式可以直接被Prometheus拉取。注意我们设置了5秒采样间隔——太短会增加系统负载，太长则可能错过瞬时峰值。根据经验，对于显存这类变化相对缓慢的指标，5~10秒是最优平衡点。

告警规则的设计哲学：不只是写个条件表达式

很多人以为设置告警就是写一句> 90完事，但在真实环境中，这样做会产生大量误报。想象一下：某个训练步骤临时加载大batch导致显存短暂冲高到92%，持续不到10秒又回落。你要为这种情况发邮件吗？

当然不。所以我们引入了for子句来增加“持续性”判断：

groups: - name: gpu_memory_alerts rules: - alert: GPUMemoryUsageHigh expr: | (gpu_memory_used / gpu_memory_total) * 100 > 90 for: 2m labels: severity: warning annotations: summary: "GPU显存使用率过高 (实例: {{ $labels.instance }})" description: > GPU {{ $labels.gpu }} 在 {{ $labels.instance }} 上显存使用率达到 {{ printf "%.2f" $value }}%，已持续超过2分钟。

这里的for: 2m意味着只有当条件连续满足两分钟，才会真正触发告警。这个时间窗口需要结合业务场景调整：训练任务通常持续数小时，容忍2分钟的延迟完全可接受；但如果是在推理服务中检测显存泄漏，则应缩短至30秒甚至更低。

另一个容易被忽视的细节是浮点精度处理。我们在description中使用printf "%.2f"保留两位小数，避免出现“使用率达90.0000000001%”这种尴尬表述。同时，通过模板变量注入实例名、GPU编号等上下文信息，使告警消息更具可操作性。

为什么选择Miniconda-Python3.11而不是pip？

你可能会问：为什么不直接用系统Python或pip安装依赖？答案在于环境一致性。

在一个典型的AI开发团队中，有人用Python 3.8跑PyTorch 1.12，有人用3.10跑2.0版本。如果监控脚本依赖特定库版本（例如prometheus_client>=0.14），很可能在某台机器上因版本冲突而失败。

我们曾遇到过这样一个案例：某节点因系统自带Python缺少importlib.metadata模块而导致脚本启动报错。虽然可以打补丁修复，但更根本的解决方式是隔离环境。

Miniconda的优势就体现在这里：

# 创建纯净环境 conda create -n gpu_monitor python=3.11 conda activate gpu_monitor # 安装精确版本 conda install prometheus_client=0.17 requests=2.31 # 锁定依赖 conda env export > environment.yml

生成的environment.yml可以在任意主机上重建完全一致的运行环境。相比pip的requirements.txt，Conda还能管理非Python依赖（如CUDA库），更适合GPU场景。

更重要的是，Miniconda镜像体积小（通常<100MB）、启动快，非常适合打包进Docker容器。我们现在的标准做法是将Exporter脚本+Conda环境构建成镜像，配合Kubernetes DaemonSet实现全集群自动部署。

落地中的那些“坑”

这套方案看似简单，但在实施过程中仍有不少陷阱需要注意：

容器内无法访问GPU设备

最常见的问题是容器运行时报错NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver。原因是你没有正确挂载设备文件和驱动库。

正确做法是在Docker运行时指定--gpus all，或手动挂载：

docker run --device=/dev/nvidia0 --device=/dev/nvidiactl --device=/dev/nvidia-uvm ...

更推荐使用NVIDIA Container Toolkit，只需添加runtime: nvidia即可自动处理所有依赖。

指标标签爆炸

如果你的集群有上百张GPU，又未合理配置Prometheus的存储策略，很容易遇到label cardinality too high问题。建议：
- 避免在标签中加入高基数字段（如时间戳）
- 合理设置scrape_interval（一般15s足够）
- 开启TSDB的series limit防护机制

告警风暴

当某台服务器宕机时，其上所有GPU都会同时触发显存告警，导致Alertmanager瞬间发送数十条通知。这时就要用到它的分组功能：

route: group_by: [alertname, instance] group_wait: 30s group_interval: 5m repeat_interval: 1h

上述配置会把同一实例上的多个GPU告警合并为一条通知，极大减轻干扰。

不止于显存：构建完整的GPU健康画像

一旦打通了数据采集链路，扩展其他监控维度就变得非常自然。我们后续增加了以下指标：

指标名称	用途
`gpu_utilization`	检测算力空转
`gpu_temperature`	预防过热降频
`gpu_power_usage`	分析能效比
`gpu_ecc_errors`	发现硬件老化

这些数据共同构成了GPU的“健康画像”。例如，我们可以定义复合告警规则：“显存使用率>90%且利用率<10%”，这往往意味着存在内存泄漏而非正常训练负载。

未来还可以接入DCGM（Data Center GPU Manager）获取更深层次的性能计数器，比如NVLink带宽占用、Tensor Core利用率等，进一步优化资源调度策略。

结语

从一条简单的“显存超90%告警”需求出发，我们搭建起了一套兼具实用性与扩展性的监控体系。它不仅仅是个脚本，更是DevOps思维在AI基础设施中的具体体现：通过标准化接口暴露指标，用声明式规则定义策略，借助轻量环境保障可移植性。

这套架构的价值早已超出最初的预期——它现在不仅用于预防OOM，还帮助我们识别低效训练任务、评估新模型的资源需求、甚至作为计费依据。技术本身并不复杂，关键在于能否将其融入日常运维流程。当你第一次收到那封“GPU 0显存使用率92.3%，持续2分10秒”的告警邮件时，就会明白：真正的稳定性，来自于对每一个细节的主动掌控。