Prometheus监控指标暴露：GPU利用率实时观测-深圳市維司達科技有限公司

Prometheus监控指标暴露：GPU利用率实时观测

在AI大模型推理服务日益普及的今天，一个看似流畅运行的语音识别系统，可能正悄悄浪费着昂贵的GPU资源。你有没有遇到过这样的情况：用户抱怨响应慢，但查看服务器时却发现CPU风平浪静、内存绰绰有余？问题很可能出在GPU上——那个被忽视却又至关重要的算力核心。

尤其是在Fun-ASR这类基于深度学习的语音识别系统中，GPU不仅是性能的关键，更是成本的大头。如何让这块“黑盒”变得透明？答案就是：将GPU的运行状态以标准化方式暴露给监控系统，实现真正的可观测性。

从硬件到指标：一条完整的监控链路

要实现GPU利用率的实时观测，并不是简单地跑个nvidia-smi命令就完事了。我们需要构建一条从硬件层直达可视化界面的数据管道。这条链路的核心思想是“主动采集 + 标准化暴露 + 定期拉取”。

整个流程可以拆解为三个关键环节：

数据源头：通过NVIDIA提供的底层库（如NVML或DCGM）直接与GPU驱动通信，获取原始硬件指标。
中间转换：在应用进程中启动一个轻量级HTTP服务，把采集到的数据转化为Prometheus可读的文本格式。
外部消费：由Prometheus定时抓取该接口，存储并索引数据，最终供Grafana等工具绘图分析。

这种设计遵循了云原生监控的经典范式——目标系统不负责推送，而是被动等待拉取。这种方式不仅降低了网络复杂度，也更容易集成进Kubernetes等动态编排环境。

指标暴露的技术细节与工程权衡

数据采集：NVML vs DCGM？

目前主流的选择有两个：NVIDIA Management Library (NVML)和Data Center GPU Manager (DCGM)。

NVML更轻量，适合单机部署场景。它提供了C/C++ API，也有成熟的Python封装（如pynvml），可以直接读取GPU利用率、显存使用、温度、功耗等基础信息。
DCGM功能更强大，支持多卡协同监控、错误注入、策略管理等企业级特性，常用于大规模数据中心。但它依赖额外服务进程，资源开销更大。

对于大多数中小型AI服务而言，NVML完全够用，且集成成本低。这也是我们在Fun-ASR中采用的方式。

指标格式：为什么选择OpenMetrics？

当你访问/metrics端点时，看到的是类似下面这样的输出：

# HELP gpu_utilization_percent GPU utilization rate in percent # TYPE gpu_utilization_percent gauge gpu_utilization_percent{device="gpu0"} 67.0 # HELP gpu_memory_used_mb Used GPU memory in MB # TYPE gpu_memory_used_mb gauge gpu_memory_used_mb{device="gpu0"} 4215.3

这正是OpenMetrics标准的一部分，也是Prometheus原生支持的格式。它的优势在于：

结构清晰：每条指标都有明确的帮助说明和类型声明
标签灵活：可通过{device="gpu0"}这样的标签实现多维切片分析
查询友好：天然适配PromQL语法，比如rate(gpu_utilization_percent[5m])可轻松计算趋势

更重要的是，这种格式已经被整个生态广泛接受——无论是Node Exporter、cAdvisor，还是各类自定义服务，都沿用这一规范，极大提升了互操作性。

实战代码：五分钟搭建GPU指标暴露服务

以下是一个可在生产环境中直接使用的最小化实现：

from prometheus_client import start_http_server, Gauge import pynvml import time import logging # 初始化日志 logging.basicConfig(level=logging.INFO) logger = logging.getLogger(__name__) # 初始化NVML try: pynvml.nvmlInit() except pynvml.NVMLError as e: logger.error(f"Failed to initialize NVML: {e}") exit(1) # 定义指标（建议添加命名空间前缀） GPU_UTILIZATION = Gauge('funasr_gpu_utilization', 'GPU utilization rate (%)', ['device']) GPU_MEMORY_USED = Gauge('funasr_gpu_memory_used_mb', 'Used GPU memory (MB)', ['device']) GPU_MEMORY_FREE = Gauge('funasr_gpu_memory_free_mb', 'Free GPU memory (MB)', ['device']) def collect_gpu_metrics(): """采集所有可用GPU的状态""" try: device_count = pynvml.nvmlDeviceGetCount() for i in range(device_count): handle = pynvml.nvmlDeviceGetHandleByIndex(i) # 利用率 util = pynvml.nvmlDeviceGetUtilizationRates(handle) GPU_UTILIZATION.labels(device=f'gpu{i}').set(util.gpu) # 显存 mem_info = pynvml.nvmlDeviceGetMemoryInfo(handle) used_mb = mem_info.used / (1024**2) free_mb = mem_info.free / (1024**2) GPU_MEMORY_USED.labels(device=f'gpu{i}').set(used_mb) GPU_MEMORY_FREE.labels(device=f'gpu{i}').set(free_mb) logger.debug("GPU metrics collected successfully") except Exception as e: logger.error(f"Error collecting GPU metrics: {e}") if __name__ == '__main__': # 启动HTTP服务（推荐使用非主服务端口） start_http_server(8080) logger.info("Prometheus metrics server started at :8080/metrics") while True: collect_gpu_metrics() time.sleep(5) # 每5秒更新一次

关键设计点解析：

独立端口暴露：避免与WebUI（如Gradio默认7860端口）冲突。若共用Flask应用，也可注册/metrics路由。
异常捕获机制：防止因某次采集失败导致整个服务崩溃。
命名空间前缀：使用funasr_前缀区分不同服务，便于后续聚合查询。
采集频率平衡：5秒间隔兼顾实时性与系统负载；过于频繁（<2s）可能导致轻微性能抖动。

这个模块既可以作为独立守护进程运行，也可以嵌入到主服务线程中。只要保证不影响推理主线程即可。

在Fun-ASR中的落地实践

Fun-ASR作为一个集成了VAD、ASR、语言模型的语音识别平台，其GPU使用模式具有典型的“突发性强、显存占用高”的特点。我们将上述监控组件与其WebUI深度融合后，获得了前所未有的运维洞察力。

整体架构如下：

graph LR A[客户端浏览器] --> B[Fun-ASR WebUI] B --> C[ASR推理引擎] B --> D[GPU指标暴露组件] D --> E[/metrics HTTP接口] E --> F[Prometheus Server] F --> G[Grafana Dashboard]

其中：

WebUI基于Flask + Gradio构建，监听7860端口
指标暴露组件以内嵌线程形式运行，监听8080端口
Prometheus配置抓取任务：
```yaml
scrape_configs:
- job_name: ‘funasr-gpu’
  static_configs:
  - targets: [‘:8080’]
    scrape_interval: 15s
```
Grafana创建仪表盘，展示各GPU的利用率曲线、显存变化趋势、历史峰值统计等

真实故障排查案例：指标如何拯救线上服务

案例一：CPU空转，识别却慢如蜗牛？

现象描述：多位用户反馈批量上传音频文件后处理极慢，但服务器监控显示CPU和内存均未饱和。

我们第一反应是检查I/O或网络延迟，但真正突破口来自一张Grafana图表——gpu_utilization_percent曲线几乎贴着零轴爬行。

进一步排查发现，前端界面中的“计算设备”选项被误设为“CPU”。虽然系统能运行，但面对长音频时性能断崖式下跌。切换回“CUDA (GPU)”模式后，GPU利用率立即跃升至70%以上，处理速度恢复至正常水平。

这个例子说明：没有监控，我们就只能靠猜；有了指标，问题定位变得像查字典一样直接。

案例二：CUDA Out of Memory频发

现象描述：部分大文件识别失败，日志中反复出现“CUDA out of memory”。

传统做法是手动执行nvidia-smi看一眼，但往往错过时机。而现在，我们可以通过Grafana回溯失败前几分钟的显存使用曲线：

发现每次OOM前，gpu_memory_used_mb都逼近24GB（显卡总容量）
结合批处理时间戳，判断为多个大文件并发加载所致
甚至还能看出某些小文件也会触发OOM——原来是PyTorch缓存未释放

于是我们采取了三步优化：

添加一键“清理GPU缓存”按钮到系统设置页
修改批处理逻辑，限制并发数不超过10个文件
配置Prometheus告警规则，提前预警：

- alert: GPUMemoryUsageTooHigh expr: funasr_gpu_memory_used_mb{device="gpu0"} > 20000 for: 2m labels: severity: warning annotations: summary: "GPU显存使用超过20GB" description: "当前使用{{ $value }}MB，建议检查是否有内存泄漏或批量任务过大"

这套组合拳显著减少了服务异常，也让用户对系统的信任度大幅提升。

工程最佳实践建议

维度	推荐做法
采集周期	5~10秒为宜。低于2秒可能影响性能；高于30秒则丧失实时意义
指标命名	使用`<service>_<resource>_<metric>`模式，如`funasr_gpu_utilization`
标签扩展	可增加`model=vad-large`,`instance=asr-worker-01`等维度，支持精细化分析
安全控制	若暴露公网，应对`/metrics`增加Basic Auth或IP白名单限制
资源隔离	尽量将采集逻辑与主推理线程分离，避免相互干扰