MedGemma X-Ray故障排查手册：端口占用/CUDA错误/僵死进程处理-深圳市維司達科技有限公司

MedGemma X-Ray故障排查手册：端口占用/CUDA错误/僵死进程处理

1. 为什么你需要这份排查手册

MedGemma X-Ray 不是普通工具，而是一位随时待命的 AI 影像解读助手。它能看懂你的胸部 X 光片，回答“肺部纹理是否增粗”“心影是否扩大”这类专业问题，并生成结构清晰的观察报告。但再聪明的助手，也得在稳定运行的前提下才能发挥作用。

你可能刚部署完系统，点击start_gradio.sh后浏览器打不开；也可能正给医学生演示时，界面突然卡住不动；又或者日志里反复出现CUDA out of memory或OSError: [Errno 98] Address already in use——这些都不是模型能力的问题，而是环境层面的“小感冒”。

这份手册不讲原理、不堆参数，只聚焦三类最常打断你工作流的真实故障：端口被占、CUDA报错、进程僵死。每一种都配可复制粘贴的命令、明确的判断逻辑、一步到位的修复动作。你不需要是运维专家，只要能看懂终端输出，就能在5分钟内让 MedGemma X-Ray 重新跑起来。

2. 故障定位三步法：先看状态，再查日志，最后动手

别急着重启或重装。MedGemma X-Ray 的所有管理脚本都已预置好诊断能力，我们用最省力的方式快速锁定问题根源。

2.1 第一步：用 status 脚本建立全局视图

执行这条命令，它会一次性告诉你当前系统的“健康快照”：

bash /root/build/status_gradio.sh

你会看到类似这样的输出：

应用状态：未运行 进程信息：无活跃进程 📡 端口监听：7860 端口空闲 最近日志（最后10行）： 2024-06-12 14:22:31 ERROR Failed to initialize CUDA context 2024-06-12 14:22:31 ERROR RuntimeError: Found no NVIDIA driver on your system ...

注意这四块信息：

应用状态：直接告诉你服务是“运行中”“未运行”还是“状态异常”
进程信息：显示是否有gradio_app.py进程在后台挂着
端口监听：明确告知 7860 端口是否被其他程序占着
最近日志：自动截取关键错误片段，避免你手动翻长日志

如果状态显示“运行中”，但浏览器打不开，优先看端口和日志；如果显示“未运行”，就跳到第3节，按启动失败流程处理。

2.2 第二步：日志不是用来读的，是用来“抓关键词”的

日志文件/root/build/logs/gradio_app.log是真相发生地。但你不需要从头读到尾，只需用grep快速定位高频错误词：

# 查找端口相关错误（最常见） grep -i "address.*in.*use\|bind\|7860" /root/build/logs/gradio_app.log | tail -5 # 查找CUDA/GPU错误（次常见） grep -i "cuda\|gpu\|nvidia\|out.*of.*memory" /root/build/logs/gradio_app.log | tail -5 # 查找进程僵死线索（如无响应、超时） grep -i "timeout\|hang\|dead\|zombie" /root/build/logs/gradio_app.log | tail -5

举个真实例子：如果你看到OSError: [Errno 98] Address already in use，说明端口冲突；如果看到CUDA initialization: CUDA unknown error，说明GPU驱动或环境没配好；如果看到Killed单独一行，大概率是内存爆了被系统强制杀掉。

2.3 第三步：别猜，用命令验证你的怀疑

光看日志还不够，要亲手验证。下面三条命令是你的“听诊器”：

# 验证端口是否真被占（比日志更权威） ss -tlnp | grep ':7860' # 验证GPU是否真可用（nvidia-smi 输出必须有表格） nvidia-smi --query-gpu=index,name,temperature.gpu,utilization.gpu --format=csv # 验证Python进程是否真僵死（ps 输出应有 CMD 列显示 gradio_app.py） ps aux | grep gradio_app.py | grep -v grep

记住一个原则：所有修复动作，都必须基于这三步确认的结果。比如ss显示 7860 端口被 PID 12345 占用，你才去kill 12345；如果nvidia-smi报错或无输出，你才去检查驱动；如果ps显示进程状态是Z（zombie），你才需要强杀。

3. 端口占用问题：7860 被抢了怎么办

7860 是 MedGemma X-Ray 的默认端口，也是最容易“撞车”的地方。开发测试、其他Web服务、甚至上次没关干净的Gradio实例，都可能把它占着。症状很典型：start_gradio.sh执行后提示“启动成功”，但浏览器访问http://IP:7860显示“拒绝连接”或空白页。

3.1 精准定位谁在占着端口

别用netstat（老系统才用），现代Linux推荐ss，更快更准：

ss -tlnp | grep ':7860'

正常输出类似：

LISTEN 0 128 *:7860 *:* users:(("python",pid=12345,fd=8))

这里pid=12345就是罪魁祸首。如果输出为空，说明端口其实是空闲的，问题在别处（比如防火墙或Gradio自身启动失败）。

3.2 安全清理：先尝试优雅退出，再考虑强杀

直接kill -9很痛快，但可能留下PID文件或临时文件。我们分两步走：

# 1. 先试试看它能不能自己收摊（对Gradio很友好） kill 12345 # 2. 等3秒，检查是否真退出了 sleep 3 && ss -tlnp | grep ':7860' # 3. 如果还在，再强杀（这才是万不得已） kill -9 12345

注意：kill默认发SIGTERM信号，程序有机会做清理；kill -9发SIGKILL，立刻终止，不给任何机会。日常排查请优先用kill。

3.3 清理残留，防止二次冲突

强杀后，PID文件可能没删干净，导致下次启动脚本误判：

# 删除旧PID文件（无论是否存在，都执行） rm -f /root/build/gradio_app.pid # 检查日志里有没有“Address already in use”新记录 tail -3 /root/build/logs/gradio_app.log

做完这三步，再运行bash /root/build/start_gradio.sh，90%的端口问题就解决了。

4. CUDA错误：GPU没反应、显存爆了、驱动不认

MedGemma X-Ray 依赖GPU加速推理，一旦CUDA链路断开，整个服务就退化成“PPT播放器”——能打开界面，但上传图片后永远转圈，日志里全是红色报错。这类问题往往不是代码bug，而是环境配置的“毫米级偏差”。

4.1 第一层验证：GPU硬件和驱动是否在线

这是所有CUDA问题的起点。执行：

nvidia-smi

你期望看到的是一个带表格的输出，包含 GPU 名称、温度、显存使用率。如果报错NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver，或者输出只有No devices were found，说明：

驱动没装好（常见于新装系统）
驱动版本太老，不支持你安装的CUDA Toolkit
GPU物理损坏或没插稳（服务器场景）

此时，nvidia-smi是唯一可信信源，其他任何检查都无效。

4.2 第二层验证：CUDA环境变量和可见设备

即使nvidia-smi正常，MedGemma 也可能看不到GPU。检查两个关键点：

# 查看CUDA_VISIBLE_DEVICES是否设置正确（必须是数字，不能是空或字符串） echo $CUDA_VISIBLE_DEVICES # 检查Python能否调用CUDA（进入Python环境测试） /opt/miniconda3/envs/torch27/bin/python -c "import torch; print(torch.cuda.is_available(), torch.cuda.device_count())"

理想输出是True 1。如果第一个命令输出为空或""，说明环境变量没生效；如果第二个命令输出False，说明PyTorch没编译CUDA支持，或CUDA路径不对。

4.3 常见CUDA错误及对应解法

错误日志关键词	根本原因	解决动作
`CUDA out of memory`	显存不足（模型太大或图片太多）	降低`--max_new_tokens`参数；或改用`--device cpu`临时降级
`Found no NVIDIA driver`	驱动未安装或未加载	`sudo modprobe nvidia`；若失败，重装驱动
`libcudnn.so not found`	cuDNN库缺失或路径不对	检查`/usr/local/cuda/lib64/`下是否有该文件；或重装cuDNN
`RuntimeError: CUDA error: invalid device ordinal`	`CUDA_VISIBLE_DEVICES`设置了不存在的GPU ID	改为`CUDA_VISIBLE_DEVICES=0`，再`nvidia-smi`确认ID

小技巧：临时绕过GPU，用CPU模式验证服务是否能跑通（只是慢）：
CUDA_VISIBLE_DEVICES="" /opt/miniconda3/envs/torch27/bin/python /root/build/gradio_app.py --device cpu

5. 僵死进程：界面卡住、按钮无响应、日志停更

僵死（Zombie/Hung）进程是运维中最让人头疼的一类——它既没彻底死透，也不肯好好干活。表现是：status_gradio.sh显示“运行中”，但上传图片没反应；ps aux能看到进程，但top里CPU占用为0；日志最后一行停留在几小时前。

5.1 识别真僵死：别被“进程存在”骗了

一个健康的gradio_app.py进程，在ps aux输出里应该有CMD列显示完整路径，且STAT列是S（休眠）或R（运行）。如果看到STAT是Z（zombie），或者TIME列长时间不增长（如00:00:00），基本可以判定僵死。

更直接的方法是看端口连接数：

# 查看7860端口的ESTABLISHED连接数（健康时应有1-3个） ss -tn state established '( dport = :7860 )' | wc -l

如果返回0，而进程又显示在运行，那它大概率已经“灵魂出窍”。

5.2 强制唤醒或终结：从软到硬的三档操作

不要一上来就kill -9。按顺序尝试：

# 档位1：发SIGUSR1信号，请求Gradio重载（部分版本支持） kill -USR1 $(cat /root/build/gradio_app.pid 2>/dev/null || echo 0) # 档位2：发SIGTERM，给它30秒体面退出 kill $(cat /root/build/gradio_app.pid 2>/dev/null || echo 0) sleep 30 # 档位3：终极手段，SIGKILL kill -9 $(cat /root/build/gradio_app.pid 2>/dev/null || echo 0)

每次执行后，都用ps aux | grep gradio_app.py和ss -tlnp | grep 7860确认进程是否真正消失。

5.3 清理后必做：重置状态，防止脚本误判

僵死进程清理后，必须手动清除所有状态标记，否则start_gradio.sh会以为服务还在运行：

# 1. 删除PID文件（核心！） rm -f /root/build/gradio_app.pid # 2. 清空日志（避免旧错误干扰新日志） > /root/build/logs/gradio_app.log # 3. 检查脚本目录权限（确保可写） ls -ld /root/build /root/build/logs

做完这些，再执行bash /root/build/start_gradio.sh，系统会以全新状态启动。

6. 预防胜于治疗：让MedGemma X-Ray更皮实的三个习惯

排查是救火，预防才是消防。这三个简单习惯，能帮你避开80%的重复故障：

6.1 日志轮转：别让日志文件长成巨无霸

/root/build/logs/gradio_app.log默认无限追加，几个月后可能达GB级，不仅占空间，还会拖慢tail -f。加个简单的logrotate配置：

# 创建配置文件 echo '/root/build/logs/gradio_app.log { daily missingok rotate 7 compress delaycompress notifempty create 0644 root root }' | sudo tee /etc/logrotate.d/medgemma-xray

这样每天自动切割日志，保留最近7天，老日志自动压缩。

6.2 端口守卫：启动前自动检查，冲突即报错

修改start_gradio.sh开头，加入端口预检：

#!/bin/bash # 在原有内容前插入 PORT=7860 if ss -tlnp | grep -q ":$PORT"; then echo " 端口 $PORT 已被占用，请先停止占用进程" exit 1 fi

下次启动时，如果端口被占，脚本会直接退出并提示，而不是默默失败。

6.3 GPU健康快照：每次启动前记录GPU状态

在start_gradio.sh启动命令前，加一行日志记录：

# 记录GPU初始状态 nvidia-smi --query-gpu=index,temperature.gpu,utilization.gpu,used_memory --format=csv >> /root/build/logs/gpu_health.log 2>&1

这样每次启动都有GPU快照，对比故障时的nvidia-smi输出，一眼看出是温度飙升还是显存泄漏。

7. 总结：故障排查不是玄学，是可复现的操作流

MedGemma X-Ray 的价值在于它能读懂X光片，而你的价值在于让它始终在线。今天梳理的三类故障——端口、CUDA、僵死进程——不是孤立的错误，而是一条清晰的因果链：

端口冲突→ 源自多实例或残留进程 → 解法是精准ss+ 安全kill
CUDA错误→ 源自驱动/环境/显存三层脱节 → 解法是nvidia-smi为锚点，逐层验证
僵死进程→ 源自资源耗尽或信号阻塞 → 解法是ps+ss双验证，软硬兼施

你不需要记住所有命令，只需要建立这个思维习惯：
状态 → 日志 → 验证 → 动作 → 清理

每一次成功的排查，都是对系统理解的一次加固。当你的医学生第一次用MedGemma X-Ray准确指出肋骨骨折位置时，背后支撑它的，正是你今天掌握的这些“不性感”却无比扎实的运维动作。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

MedGemma X-Ray故障排查手册：端口占用/CUDA错误/僵死进程处理