ChatGLM-6B新手教程：查看日志与服务状态命令汇总-深圳市維司達科技有限公司

ChatGLM-6B新手教程：查看日志与服务状态命令汇总

你刚部署好ChatGLM-6B镜像，界面打开了，对话也跑通了——但突然发现回答变慢、页面卡住，或者干脆打不开WebUI？这时候你不会只想刷新页面，而是想立刻知道：服务还在运行吗？有没有报错？模型加载成功了吗？日志里藏了什么线索？

别担心，这正是本教程要解决的问题。我们不讲模型原理，也不堆参数配置，只聚焦一个最实际的需求：当你需要快速确认服务是否健康、排查基础问题时，该敲哪几条命令？每条命令返回的信息到底在告诉你什么？

全文所有操作均基于CSDN镜像预置环境，无需额外安装、无需修改配置，打开终端就能用。哪怕你第一次接触Linux命令，也能照着做、看得懂、用得上。

1. 理解服务运行机制：为什么需要这些命令？

在开始敲命令前，先花两分钟搞清一件事：你看到的Gradio对话界面，背后其实由多个“角色”协作完成。它们不是铁板一块，而是一个有分工、有守护、有记录的小团队。

1.1 Supervisor 是你的“服务管家”

镜像没有用python app.py这种简单方式直接启动服务，而是交给了Supervisor—— 一个专业的进程管理工具。它就像一位24小时值班的管家：

启动时，它按配置文件自动拉起app.py进程；
运行中，它持续盯着这个进程，一旦崩溃就立刻重启；
停止时，它会优雅地终止进程，而不是粗暴杀掉。

所以，所有关于“服务启停、状态检查”的操作，本质都是和Supervisor对话。你不是在操作Python程序，而是在指挥这位管家。

1.2 日志文件是你的“问题录音笔”

每次模型加载、用户提问、系统报错，都会被原原本本记在/var/log/chatglm-service.log这个文件里。它不加修饰、不带情绪，只忠实记录时间、事件和错误信息。比如：

2024-05-20 14:22:37,102 INFO Loading model from /ChatGLM-Service/model_weights... 2024-05-20 14:23:45,891 ERROR CUDA out of memory. Tried to allocate 2.10 GiB...

第一行告诉你模型正在加载，第二行直接指出显存不足——比反复刷新网页高效十倍。看日志，不是为了读技术细节，而是为了听它“说”出问题在哪。

1.3 Gradio WebUI只是“前台窗口”

你访问http://127.0.0.1:7860看到的漂亮界面，只是服务对外展示的“前台”。它本身不处理推理，只负责把你的文字传给后台、再把结果画出来。界面打不开，90%的原因不在界面本身，而在后台服务或网络链路。所以排查顺序永远是：先查服务状态 → 再看日志 → 最后检查端口映射。

2. 核心命令详解：每一条都配真实反馈解读

下面列出你在日常运维中最常使用的5条命令。每条都附带典型输出示例 + 逐行解读 + 你该做什么，拒绝“复制粘贴完就懵”。

2.1 查看服务当前状态：`supervisorctl status chatglm-service`

这是你每天打开终端后该敲的第一条命令。它不解决问题，但能立刻告诉你“战况”。

$ supervisorctl status chatglm-service chatglm-service RUNNING pid 1234, uptime 1 day, 3:22:15

正常情况解读：

RUNNING：服务正在运行，进程ID是1234，已稳定运行1天多。放心使用。

❌异常情况解读：

STARTING：服务正在启动中（通常几秒内会变RUNNING，若卡住需看日志）；
STOPPED：服务已停止，需手动supervisorctl start chatglm-service；
FATAL：启动失败，必须立刻执行下一步：看日志；
UNKNOWN：Supervisor自身异常，极少见，可尝试supervisorctl reload。

小技巧：这条命令支持简写supervisorctl status，会列出所有被管理的服务，方便你一眼看清整个环境状态。

2.2 实时追踪日志：`tail -f /var/log/chatglm-service.log`

当状态显示异常，或你感觉响应变慢、回答不连贯时，这条命令就是你的“听诊器”。

$ tail -f /var/log/chatglm-service.log 2024-05-20 15:01:22,334 INFO Starting Gradio app on http://0.0.0.0:7860 2024-05-20 15:01:23,456 INFO Model loaded successfully in 42.1s 2024-05-20 15:02:10,789 WARNING Low GPU memory: only 1.2GB free 2024-05-20 15:02:11,012 ERROR Generation failed: RuntimeError: expected scalar type Half but found Float

关键信息定位指南：

看INFO行：确认模型是否加载成功、WebUI是否启动；
看WARNING行：通常是性能预警（如显存不足），可能影响后续生成质量；
看ERROR行：重点盯住最后一行，它往往是问题根源（如上面的类型不匹配错误）；
按Ctrl+C可退出实时追踪，回到命令行。

注意：日志文件默认只保留最近10MB，老日志会被自动轮转。若需长期归档，可配置Supervisor的logrotate参数（进阶需求，本教程不展开）。

2.3 重启服务：`supervisorctl restart chatglm-service`

当修改了配置、更新了模型、或服务出现僵死状态（状态显示RUNNING但无响应）时，重启是最安全的“一键恢复”。

$ supervisorctl restart chatglm-service chatglm-service: stopped chatglm-service: started

成功标志：看到stopped和started两行输出。
自动触发：重启后，Supervisor会重新读取配置、重新加载模型、重新启动Gradio服务。
⏱耗时预期：从执行命令到WebUI可访问，通常需40–90秒（取决于GPU型号和模型加载速度）。

提示：重启期间，WebUI会短暂不可用（显示连接失败），属正常现象。耐心等待即可。

2.4 停止服务：`supervisorctl stop chatglm-service`

当你需要释放GPU资源、进行系统维护、或彻底关闭服务时使用。

$ supervisorctl stop chatglm-service chatglm-service: stopped

成功标志：明确显示stopped。此时supervisorctl status会返回STOPPED。
🛑安全停止：Supervisor会等待当前推理任务完成后再终止进程，不会中断正在进行的对话。

警告：不要用kill -9 <pid>强制杀死进程！这会绕过Supervisor的管理逻辑，可能导致模型权重文件损坏或端口未释放。

2.5 查看历史日志片段：`head`/`tail`/`grep`组合技

有时你需要找特定信息，比如“昨天下午3点发生了什么”，或“所有报错都在哪”。这时单靠tail -f不够，得用组合命令：

# 查看日志最后20行（比默认10行更全面） tail -n 20 /var/log/chatglm-service.log # 查看日志开头10行（常含启动初始化信息） head -n 10 /var/log/chatglm-service.log # 搜索所有包含"ERROR"的行（快速定位故障点） grep "ERROR" /var/log/chatglm-service.log # 搜索最近1小时内含"memory"的日志（排查显存问题） grep "memory" /var/log/chatglm-service.log | tail -n 50

实用场景举例：

用户反馈“刚才提问没反应”，你执行grep "ERROR" ... | tail -n 10，发现一行CUDA error: out of memory—— 立刻知道是显存爆了，需减少batch size或清理其他进程；
WebUI突然白屏，执行head -n 5发现ImportError: No module named 'transformers'—— 说明依赖损坏，需重装环境。

3. 故障排查实战：3个高频问题的完整诊断流程

理论看完，不如直接上手。下面模拟3个新手最常遇到的真实场景，带你走一遍“命令组合拳”。

3.1 场景一：WebUI打不开，浏览器提示“无法连接”

你的动作：

先敲supervisorctl status chatglm-service→ 发现状态是FATAL；

立即tail -f /var/log/chatglm-service.log→ 看到最后几行：

2024-05-20 16:05:11,223 CRITICAL Unable to bind to port 7860: Address already in use

问题定位：7860端口被占用了。
解决方案：
- 查谁占了端口：lsof -i :7860或netstat -tulpn | grep :7860；
- 杀掉占用进程：kill -9 <PID>；
- 重启服务：supervisorctl restart chatglm-service。

验证：状态变RUNNING，日志出现Starting Gradio app...，本地浏览器可访问。

3.2 场景二：能打开界面，但提问后一直转圈，无响应

你的动作：

supervisorctl status→ 状态是RUNNING，排除服务宕机；
tail -f /var/log/chatglm-service.log→ 观察新提问时的日志变化；
发现日志卡在Loading tokenizer...后不再滚动，或反复出现WARNING: Low GPU memory；
问题定位：GPU显存不足，模型加载卡死或推理超时；
解决方案：
- 临时降低负载：在Gradio界面上调高Temperature（如设为1.2），减少计算强度；
- 长期解决：关闭其他GPU占用进程，或升级更高显存的实例。

验证：调整参数后，日志出现Generation completed in X.XXs，界面返回答案。

3.3 场景三：服务运行正常，但某类问题总答错（如数学计算）

你的动作：

supervisorctl status→RUNNING，确认服务层无问题；
tail -f /var/log/chatglm-service.log→ 提问时日志显示Generation completed...，无ERROR；
问题定位：非系统故障，而是模型能力边界或提示词问题；
解决方案：
- 检查输入是否清晰（避免模糊表述）；
- 尝试在提问前加指令：“请逐步推理，最后给出答案”；
- 对比官方Demo效果，确认是否为镜像特有问题（极少发生）。

验证：优化提示词后，回答准确率提升。

4. 进阶技巧：让日志和状态管理更高效

掌握基础命令后，这些小技巧能帮你节省大量时间。

4.1 创建快捷别名，告别重复输入

每次敲supervisorctl status chatglm-service太长？把它变成glms：

# 编辑当前用户bash配置 echo "alias glms='supervisorctl status chatglm-service'" >> ~/.bashrc echo "alias glmr='supervisorctl restart chatglm-service'" >> ~/.bashrc echo "alias glmt='tail -f /var/log/chatglm-service.log'" >> ~/.bashrc source ~/.bashrc

之后只需输入glms查状态、glmr重启、glmt看日志，效率翻倍。

4.2 设置日志自动告警（可选）

若你希望关键错误（如ERROR、FATAL）发生时自动通知你，可用简单脚本监听：

# 创建监控脚本 monitor.sh #!/bin/bash tail -f /var/log/chatglm-service.log | while read line; do if echo "$line" | grep -q "ERROR\|FATAL"; then echo "🚨 ChatGLM服务告警：$line" | mail -s "ChatGLM告警" your@email.com fi done

赋予执行权限并后台运行：chmod +x monitor.sh && nohup ./monitor.sh &

注意：邮件功能需提前配置系统mail服务，此为进阶用法，新手可跳过。

4.3 定期清理旧日志，防止磁盘占满

日志文件持续增长，可能撑爆磁盘。Supervisor支持自动轮转，只需编辑其配置：

# 编辑Supervisor配置（路径因镜像而异，常见于 /etc/supervisor/conf.d/chatglm.conf） # 在 [program:chatglm-service] 段落下添加： stdout_logfile_maxbytes=10MB stdout_logfile_backups=5

保存后执行supervisorctl reread && supervisorctl update生效。此后日志自动保留最新5个10MB文件，旧文件被删除。

5. 总结：你的ChatGLM-6B运维清单

学到这里，你已经掌握了保障ChatGLM-6B服务稳定运行的核心能力。最后，用一张清单帮你固化习惯：

每日必做：打开终端第一件事，敲glms（或supervisorctl status chatglm-service）确认服务健康；
遇问题先查：界面异常 → 看状态 → 看日志 → 定位关键词（ERROR/WARNING）→ 执行对应操作；
重启不盲目：重启前先tail -f看日志，避免掩盖真正问题；
日志是金矿：养成grep "ERROR"快速扫描的习惯，比猜快十倍；
善用别名：把常用命令缩写，让运维像呼吸一样自然。

记住，技术工具的价值不在于它多炫酷，而在于你能否在它出状况时，冷静、快速、准确地让它重回正轨。今天学会的每一条命令，都是你掌控AI服务的底气。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

ChatGLM-6B新手教程：查看日志与服务状态命令汇总