MedGemma X-Ray运维手册：日志轮转、磁盘清理与异常自动告警-深圳市維司達科技有限公司

MedGemma X-Ray运维手册：日志轮转、磁盘清理与异常自动告警

1. 为什么需要专业的运维保障

MedGemma X-Ray不是普通Web应用，而是一个持续运行的医疗AI分析服务。它每天处理大量X光图像上传、模型推理和报告生成任务，日志会随时间不断增长，临时文件会悄然堆积，GPU资源可能因异常请求被长期占用——这些看似微小的问题，积累起来就会导致系统响应变慢、磁盘爆满甚至服务中断。

在临床辅助或教学场景中，一次意外宕机可能打断医生的教学演示，也可能让医学生错过关键学习时机。因此，一套轻量但可靠的运维机制必不可少：它不追求复杂监控平台，而是聚焦三个最实际的问题——日志不能无限写、磁盘不能悄悄满、异常不能等你发现。

本手册不讲抽象理论，只提供可直接复制粘贴、开箱即用的脚本和配置。所有操作均基于您已有的/root/build/目录结构，无需额外安装依赖，也不改动原有应用逻辑。

2. 日志轮转：让日志自动“断舍离”

2.1 当前日志问题在哪

目前，MedGemma X-Ray 所有输出都追加写入单个文件：
/root/build/logs/gradio_app.log

没有轮转机制意味着：

日志文件可能在一周内突破500MB
tail -f查看时加载缓慢，影响故障排查效率
单文件过大，备份或传输困难
历史日志无法按天归档，难以定位某次特定分析的上下文

2.2 用logrotate实现零侵入轮转

我们不修改Python代码，而是借助Linux原生工具logrotate实现优雅轮转。该方案无需重启服务，不影响任何正在运行的推理请求。

创建轮转配置

sudo tee /etc/logrotate.d/medgemma-xray > /dev/null << 'EOF' /root/build/logs/gradio_app.log { daily missingok rotate 30 compress delaycompress notifempty create 644 root root sharedscripts postrotate # 向gradio进程发送USR1信号，触发日志重开（需gradio支持） if [ -f /root/build/gradio_app.pid ]; then kill -USR1 $(cat /root/build/gradio_app.pid) 2>/dev/null || true fi endscript } EOF

说明：
daily：每天轮转一次
rotate 30：保留最近30天的日志（含当前日）
compress：自动用gzip压缩旧日志，节省90%空间
postrotate：轮转后向进程发送USR1信号，通知其重新打开日志文件（Gradio默认支持此行为）

验证配置是否生效

# 手动触发一次轮转（测试用） sudo logrotate -d /etc/logrotate.d/medgemma-xray # -d 表示调试模式，不实际执行 sudo logrotate -f /etc/logrotate.d/medgemma-xray # -f 强制立即执行一次

执行后，您将看到：

原日志gradio_app.log变为空文件
新增压缩文件gradio_app.log.1.gz
ls -lh /root/build/logs/显示清晰的归档结构

2.3 替代方案：如果Gradio不响应USR1信号

某些Gradio版本对信号支持不完善。此时改用更稳妥的“重定向式”轮转：

# 修改 start_gradio.sh 中的启动命令（在 exec python ... 前添加） # 将原启动行： # exec /opt/miniconda3/envs/torch27/bin/python /root/build/gradio_app.py ... # 替换为： exec /opt/miniconda3/envs/torch27/bin/python /root/build/gradio_app.py ... \ >> /root/build/logs/gradio_app.log 2>&1 &

再配合以下简化版logrotate（去掉postrotate）：

sudo tee /etc/logrotate.d/medgemma-xray-safe > /dev/null << 'EOF' /root/build/logs/gradio_app.log { daily missingok rotate 30 compress delaycompress notifempty create 644 root root } EOF

该方式完全绕过信号机制，靠logrotate自身重命名+新建文件完成轮转，100%兼容。

3. 磁盘清理：精准识别并清除无用文件

3.1 医疗AI系统的典型磁盘隐患

MedGemma X-Ray虽不保存用户上传的原始X光片（默认内存处理后即释放），但在以下环节仍会产生临时文件：

Gradio缓存：/root/.cache/gradio/（存放前端组件、临时上传缓冲）
ModelScope模型缓存：/root/build/.modelscope/（当使用远程模型时下载的权重、分词器等）
Python pip缓存：/root/.cache/pip/（极少变动，但体积可观）
旧日志压缩包：*.log.*.gz（logrotate生成，但未被自动清理）

其中，/root/.cache/gradio/和/root/build/.modelscope/是最大磁盘消耗源，单次大模型加载可能产生2–5GB缓存。

3.2 编写安全清理脚本：clean_disk.sh

在/root/build/下创建专用清理脚本，避免误删核心文件：

sudo tee /root/build/clean_disk.sh > /dev/null << 'EOF' #!/bin/bash # MedGemma X-Ray 安全磁盘清理脚本 # 仅清理明确可删除的缓存与旧日志，不触碰模型、代码、配置 LOG_DIR="/root/build/logs" GRADIO_CACHE="/root/.cache/gradio" MODELS_SCOPE="/root/build/.modelscope" PIP_CACHE="/root/.cache/pip" echo "=== MedGemma X-Ray 磁盘清理开始 ===" date # 1. 清理超过7天的旧日志压缩包（保留最近30天轮转日志，但压缩包可删） if [ -d "$LOG_DIR" ]; then echo "→ 清理 $LOG_DIR 下7天前的 .gz 日志..." find "$LOG_DIR" -name "*.log.*.gz" -mtime +7 -delete 2>/dev/null echo " 完成。" fi # 2. 清理Gradio缓存（保留最近3天的活跃缓存，其余清空） if [ -d "$GRADIO_CACHE" ]; then echo "→ 清理 $GRADIO_CACHE 中7天前的临时文件..." find "$GRADIO_CACHE" -type f -mtime +7 -delete 2>/dev/null find "$GRADIO_CACHE" -type d -empty -delete 2>/dev/null echo " 完成。" fi # 3. 清理ModelScope缓存（谨慎：只删非当前模型所需文件） if [ -d "$MODELS_SCOPE" ]; then echo "→ 清理 $MODELS_SCOPE 中未被引用的模型缓存..." # ModelScope提供官方清理命令（推荐） if command -v modelscope &> /dev/null; then modelscope cache clean --yes 2>/dev/null else # 降级：删除30天前的整个缓存目录（较激进） find "$MODELS_SCOPE" -maxdepth 1 -type d -name "hub_*" -mtime +30 -exec rm -rf {} + 2>/dev/null fi echo " 完成。" fi # 4. 清理pip缓存（安全，不影响已安装包） if [ -d "$PIP_CACHE" ]; then echo "→ 清理 $PIP_CACHE..." pip cache info 2>/dev/null | grep -q "Cache info" && pip cache purge 2>/dev/null echo " 完成。" fi # 5. 最终统计 echo echo "=== 清理后磁盘使用情况 ===" df -h /root | grep -E "(Filesystem|/root)" echo "=== 清理完成 ===" EOF sudo chmod +x /root/build/clean_disk.sh

手动执行与效果验证

# 立即运行一次 bash /root/build/clean_disk.sh # 查看清理了多少空间 du -sh /root/.cache/gradio /root/build/.modelscope /root/.cache/pip

典型效果：首次运行可释放3–8GB空间，后续每周运行可维持磁盘健康水位。

3.3 设置定时清理（每周日凌晨2点）

# 编辑root用户的crontab sudo crontab -e

添加一行：

0 2 * * 0 /root/build/clean_disk.sh >> /root/build/logs/clean_disk.log 2>&1

每周日2:00自动执行
输出记录到独立日志，便于审计
不干扰白天的影像分析业务

4. 异常自动告警：从“等出事”到“早发现”

4.1 三类必须拦截的关键异常

MedGemma X-Ray的稳定性风险主要来自：

异常类型	表现特征	人工发现延迟	自动化拦截可行性
服务宕机	`ps aux \| grep gradio_app.py`无结果，端口7860不监听	数小时至数天	（进程+端口双检）
GPU显存溢出	`nvidia-smi`显示GPU-Util 100%，Memory-Usage接近100%	实时但需人工巡检	（阈值告警）
日志报错高频	连续5分钟内日志出现≥10次`ERROR`或`Traceback`	数小时	（日志流分析）

本节提供轻量级Shell脚本方案，不依赖Prometheus/Grafana等重型组件。

4.2 创建告警检查脚本：check_health.sh

sudo tee /root/build/check_health.sh > /dev/null << 'EOF' #!/bin/bash # MedGemma X-Ray 健康检查与告警脚本 # 检查项：进程存活、端口监听、GPU显存、错误日志频率 ALERT_LOG="/root/build/logs/alert.log" CURRENT_TIME=$(date "+%Y-%m-%d %H:%M:%S") ALERT_MSG="" # 1. 检查进程是否存在 if ! pgrep -f "gradio_app.py" > /dev/null; then ALERT_MSG+="❌ 进程异常：gradio_app.py 未运行\n" fi # 2. 检查端口7860是否监听 if ! ss -tlnp | grep ":7860" | grep -q "LISTEN"; then ALERT_MSG+="❌ 端口异常：7860 未监听\n" fi # 3. 检查GPU显存使用率（仅当nvidia-smi可用） if command -v nvidia-smi &> /dev/null; then GPU_MEM=$(nvidia-smi --query-gpu=memory.used --format=csv,noheader,nounits 2>/dev/null | head -1 | tr -d ' ') GPU_TOTAL=$(nvidia-smi --query-gpu=memory.total --format=csv,noheader,nounits 2>/dev/null | head -1 | tr -d ' ') if [ -n "$GPU_MEM" ] && [ -n "$GPU_TOTAL" ]; then USAGE_PCT=$((GPU_MEM * 100 / GPU_TOTAL)) if [ $USAGE_PCT -gt 95 ]; then ALERT_MSG+="❌ GPU异常：显存使用率 ${USAGE_PCT}%（超95%阈值）\n" fi fi fi # 4. 检查最近5分钟日志错误频率 LOG_FILE="/root/build/logs/gradio_app.log" if [ -f "$LOG_FILE" ]; then ERROR_COUNT=$(grep -c -i "error\|traceback" <(tail -n 200 "$LOG_FILE") 2>/dev/null) if [ "$ERROR_COUNT" -ge 10 ]; then ALERT_MSG+="❌ 日志异常：最近200行含 ${ERROR_COUNT} 处错误\n" fi fi # 发送告警（此处为本地记录，您可自行扩展邮件/钉钉/微信） if [ -n "$ALERT_MSG" ]; then echo -e "\n=== 告警触发 [$CURRENT_TIME] ===" >> "$ALERT_LOG" echo -e "$ALERT_MSG" >> "$ALERT_LOG" echo "告警详情已记录至 $ALERT_LOG" # 可选：同时写入系统日志便于统一监控 logger "MedGemma X-Ray ALERT: $(echo -e "$ALERT_MSG" | tr '\n' ';')" else echo " 健康检查通过 [$CURRENT_TIME]" fi EOF sudo chmod +x /root/build/check_health.sh

4.3 设置高频检查（每5分钟一次）

sudo crontab -e

添加：

*/5 * * * * /root/build/check_health.sh >> /root/build/logs/check_health.log 2>&1

每5分钟自动扫描一次
告警内容追加写入alert.log，不覆盖历史
同时调用logger写入系统日志（journalctl -u rsyslog可查）

告警日志样例

=== 告警触发 [2024-06-15 14:25:01] === ❌ 进程异常：gradio_app.py 未运行 ❌ 端口异常：7860 未监听

运维人员只需定期查看/root/build/logs/alert.log，或配置日志收集工具（如rsyslog转发）即可实现集中告警。

5. 整合实践：一键运维工作流

5.1 创建主运维脚本：ops_medgemma.sh

将上述能力整合为一个入口脚本，支持交互式选择操作：

sudo tee /root/build/ops_medgemma.sh > /dev/null << 'EOF' #!/bin/bash # MedGemma X-Ray 一体化运维脚本 show_menu() { echo echo "=== MedGemma X-Ray 运维中心 ===" echo "1) 查看当前健康状态" echo "2) 手动触发日志轮转" echo "3) 立即执行磁盘清理" echo "4) 查看最近告警记录" echo "5) 查看实时日志（tail -f）" echo "0) 退出" echo -n "请选择 (0-5): " } while true; do show_menu read -r choice case $choice in 1) echo; echo "--- 健康检查 ---"; bash /root/build/check_health.sh ;; 2) echo; echo "--- 手动轮转日志 ---"; sudo logrotate -f /etc/logrotate.d/medgemma-xray ;; 3) echo; echo "--- 磁盘清理 ---"; bash /root/build/clean_disk.sh ;; 4) echo; echo "--- 最近告警 ---"; tail -n 50 /root/build/logs/alert.log 2>/dev/null || echo "暂无告警记录"; ;; 5) echo; echo "--- 实时日志 ---"; tail -f /root/build/logs/gradio_app.log ;; 0) echo "再见！"; exit 0 ;; *) echo "无效选项，请输入 0-5";; esac echo; read -n 1 -s -p "按任意键继续..." echo done EOF sudo chmod +x /root/build/ops_medgemma.sh

使用方式

# 运行运维中心 bash /root/build/ops_medgemma.sh # 或直接执行某项（如快速看日志） bash /root/build/ops_medgemma.sh 5

5.2 推荐日常运维节奏

时间	操作	工具	目的
每5分钟	自动健康检查	`check_health.sh`+ cron	防止服务静默宕机
每天凌晨	日志轮转	`logrotate`	控制日志体积，保障可追溯性
每周日凌晨	磁盘清理	`clean_disk.sh`+ cron	预防磁盘写满，释放GPU缓存
随时	交互式运维	`ops_medgemma.sh`	快速诊断、应急处理

6. 总结：让AI影像服务真正“省心运行”

MedGemma X-Ray的价值在于稳定、可靠地提供专业影像解读能力。而这份可靠性，不来自黑盒模型本身，而来自背后扎实的运维设计。

本文提供的方案坚持三个原则：
零侵入：所有脚本均不修改原有应用代码，不调整模型参数，不引入新Python依赖；
可验证：每个步骤都附带验证命令（如ls -lh、ss -tlnp、tail -n 10），执行后立刻可见效果；
可持续：通过cron自动化，将人工巡检转化为机器值守，让运维成为系统呼吸的一部分。

您不需要成为Linux专家，只需将这四个脚本（check_health.sh、clean_disk.sh、ops_medgemma.sh及 logrotate 配置）部署到位，MedGemma X-Ray 就能以更健壮的状态，持续服务于医学教育、科研探索与临床辅助场景。

记住：最好的AI运维，是让你几乎感觉不到它的存在——它默默守护，直到你需要它时，总已准备就绪。