手把手教你运行GLM-4.6V-Flash-WEB，Jupyter一键启动全流程-深圳市維司達科技有限公司

手把手教你运行GLM-4.6V-Flash-WEB，Jupyter一键启动全流程

你是不是也遇到过这样的情况：镜像拉下来了，GPU显存也占上了，Jupyter页面打开了，双击运行了那个醒目的1键推理.sh脚本——然后？就没有然后了。网页推理按钮点不动，手动输地址打不开，日志里没报错，服务好像在跑，但就是“看不见、摸不着”。

别急，这不是模型的问题，也不是你的操作错了，而是你还没真正“唤醒”它。

GLM-4.6V-Flash-WEB 不是一段代码，而是一整套即插即用的视觉智能工作台。它把模型、接口、界面、调试环境全打包进一个镜像里，目标就一个：让你在5分钟内，对着一张图，问出你想问的问题，并立刻看到答案。本文不讲原理、不堆参数，只做一件事：带你从零开始，稳稳当当地把网页推理界面亮起来，把第一次图文问答跑通。

全程无需改一行代码，不碰Docker命令，不查端口映射表——所有操作都在Jupyter里完成，小白友好，手慢党也能跟上。

1. 准备工作：确认环境已就绪

在点击任何按钮之前，请花30秒确认这三件事是否全部满足。跳过检查，后面90%的问题都源于这里。

1.1 确认镜像已成功运行并分配GPU资源

登录你的云平台（如AutoDL、ModelScope Studio、恒源云等），进入实例控制台，查看当前状态：

实例状态为“运行中”
GPU使用率显示非零（例如GeForce RTX 4090: 12%）
内存占用合理（未爆满），显存有至少4GB空闲

注意：该镜像单卡即可推理，但必须是支持CUDA的NVIDIA显卡（A10/A100/3090/4090等均可）。Intel核显、AMD显卡或无GPU环境无法运行。

1.2 确认Jupyter已可正常访问

在实例详情页，找到“Jupyter链接”或“Web Terminal”入口，点击打开。你应该看到标准的Jupyter Lab或Classic界面，左侧文件树清晰可见，右上角显示Python 3.10.x或类似版本号。

如果打不开Jupyter，请先解决基础连接问题（如SSH密钥、平台登录态、浏览器代理等），再继续后续步骤。

1.3 确认/root目录下存在关键文件

在Jupyter左侧文件浏览器中，点击进入/root目录（不是/home或其他路径）。你应该能看到以下三个核心文件：

1键推理.sh—— 启动脚本（带中文名，注意不要误删）
GLM-4.6V-Flash/—— 模型主程序目录（含app.py、webui.py等）
requirements.txt—— 依赖清单（已预装，仅作参考）

如果缺失1键推理.sh，说明镜像未完整加载，请停止当前实例，重新部署最新版GLM-4.6V-Flash-WEB镜像。

2. 第一步：在Jupyter中运行一键启动脚本

这是整个流程中最关键、也最容易被忽略的一步。很多人以为双击就能运行，其实需要正确执行方式。

2.1 打开终端（Terminal），而非Notebook

重要提醒：不要在.ipynb文件里写!bash 1键推理.sh，也不要右键“Run”脚本——这些方式无法保持后台服务常驻。

请按以下顺序操作：

在Jupyter右上角点击+号 → “Terminal”（新建终端）
终端默认路径即为/root，输入以下命令确认：

ls -l 1键推理.sh

你应该看到类似输出：

-rwxr-xr-x 1 root root 327 Jan 15 10:22 1键推理.sh

其中-rwx表示该脚本具备可执行权限（已配置好，无需额外chmod）。

2.2 正确执行脚本：带后台守护与日志记录

直接运行./1键推理.sh会导致服务随终端关闭而终止。我们采用更稳妥的方式：

nohup ./1键推理.sh > inference.log 2>&1 &

这条命令的含义是：

nohup：让进程忽略挂起信号，即使关闭浏览器标签也不中断
> inference.log：将标准输出保存到日志文件
2>&1：把错误输出也重定向到同一日志
&：在后台运行，释放终端以便后续操作

执行后，你会看到类似提示：

[1] 12345

这表示服务已在后台启动，进程ID为12345。

2.3 验证服务是否真正启动成功

等待约10–20秒（模型加载需时间），执行：

tail -n 20 inference.log

观察最后几行输出。成功标志是出现以下任一关键词：

Running on public URL: http://0.0.0.0:7860
Uvicorn running on http://0.0.0.0:7860
Gradio app is ready, visit http://0.0.0.0:7860
INFO: Application startup complete.

如果看到OSError: [Errno 98] Address already in use，说明端口被占，跳转至【第4节】处理；
如果看到ModuleNotFoundError或ImportError，说明环境异常，建议重启实例重试。

3. 第二步：访问网页推理界面（3种可靠方式）

服务已启动，现在只需“推开那扇门”。以下是三种经实测100%可用的访问方式，推荐按顺序尝试。

3.1 方式一：点击实例控制台“网页推理”按钮（最简）

回到你的云平台实例管理页（不是Jupyter页面），在操作栏或侧边栏找到名为“网页推理”或“WebUI”的按钮，点击。

成功表现：新标签页自动打开，显示带有智谱LOGO的蓝色界面，顶部有“上传图片”区域和“输入问题”文本框。

失败表现：空白页、连接超时、ERR_CONNECTION_REFUSED
→ 请立即执行【第4节】端口连通性自检。

3.2 方式二：手动拼接URL（精准可控）

在浏览器地址栏中，输入以下格式地址：

http://<你的实例公网IP>:7860

如何获取<你的实例公网IP>？

AutoDL：实例列表页，“IP地址”列显示的IPv4地址（如118.193.210.45）
ModelScope Studio：实例详情页，“网络信息” → “公网IP”
其他平台：在实例控制台查找“公网IP”、“EIP”或“Public IP”

注意：

不要加https，必须用http
不要漏掉:7860，这是服务唯一暴露端口
不要尝试localhost或127.0.0.1（那是你本地电脑，不是服务器）

3.3 方式三：通过Jupyter内置代理访问（免IP记忆）

部分平台（如ModelScope Studio）支持Jupyter反向代理。在Jupyter中新建一个.txt文件，命名为access_url.txt，写入：

http://localhost:7860

然后点击该文件右侧的“Preview”按钮（或右键 → “View”），即可在Jupyter内嵌窗口中打开界面。

此方式无需复制IP，适合临时调试，但首次加载稍慢。

4. 常见问题速查与一键修复（附命令）

即使按上述步骤操作，仍可能因平台策略差异出现异常。以下是高频问题及对应命令级解决方案，复制粘贴即可生效。

4.1 问题：点击“网页推理”无反应，或提示“无法访问此网站”

原因：云平台安全组未放行7860端口（最常见！）

修复命令（在终端中执行）：
无需修改防火墙，直接检查当前开放端口：

curl -s http://127.0.0.1:7860 | head -n 1 | grep -q "<title>" && echo " 服务本地可达" || echo " 服务未响应"

若返回服务本地可达→ 问题在外网访问层，请登录云平台控制台，为该实例的安全组添加入站规则：
协议：TCP｜端口：7860｜授权对象：0.0.0.0/0
若返回服务未响应→ 问题在服务本身，请执行【4.2】

4.2 问题：`inference.log`显示端口被占用（Address already in use）

原因：其他进程（如旧服务、测试脚本）占用了7860端口。

一键清理命令：

sudo lsof -i :7860 | awk 'NR>1 {print $2}' | xargs -r kill -9 2>/dev/null; echo "端口7860已释放"

然后重新运行启动命令：

nohup ./1键推理.sh > inference.log 2>&1 &

4.3 问题：上传图片后无响应，或提问后长时间转圈

原因：模型加载未完成，或显存不足触发OOM。

验证命令：

nvidia-smi --query-compute-apps=pid,used_memory --format=csv,noheader,nounits | grep -v "^$"

若输出为空 → GPU未被调用 → 检查app.py是否启用CUDA（通常已默认开启）
若输出显存占用 > 12GB（如13200 MiB）→ 显存紧张 → 关闭其他进程或重启实例

临时提速技巧：首次提问后等待15秒再提第二问，模型会缓存图像编码器，后续响应明显加快。

4.4 问题：界面打开但提示“Connection lost”，或反复刷新

原因：Websocket连接不稳定（多见于网络波动或代理环境）

解决方法：在网页界面右上角，点击齿轮图标 → 开启“启用长连接”（如选项存在）；
或直接刷新页面，多数情况下重连成功。

5. 第一次图文问答实战：3分钟体验全流程

现在，界面已亮起，服务已就位。我们来完成一次真实交互，验证一切是否真正就绪。

5.1 上传一张测试图

点击“上传图片”区域，选择一张本地图片（推荐：含文字的海报、带物体的日常照片、简单图表）
支持格式：.jpg、.png、.jpeg（不支持.webp或.gif）
图片大小建议 < 5MB（超大会触发前端限制）

成功表现：缩略图立即显示，下方出现“已上传”提示。

5.2 输入一个具体问题

不要问“这是什么”，试试这些更易见效的问题：

“图中有几个红色物体？分别是什么？”
“这张海报的主标题是什么？字体颜色是什么？”
“表格第三行第二列的数值是多少？”
“这个人穿的是什么颜色的衣服？背景里有什么建筑？”

小技巧：问题越具体，答案越准。避免开放式提问如“你能看出什么？”

5.3 查看回答并理解输出结构

几秒后，界面中部将显示结构化回答，通常包含：

文字回答区：直接回答你的问题（如：“主标题是‘智谱AI发布会’，字体颜色为深蓝色”）
推理依据区（可选）：部分版本会高亮图中相关区域或引用原文片段
置信度提示（如有）：如“（基于图像内容高度可信）”

首次成功标志：你提出的问题，得到了准确、连贯、符合常识的回答。

6. 进阶提示：让体验更顺滑的3个实用建议

完成首次运行只是开始。以下建议能帮你避开后续90%的“小卡点”。

6.1 日志随时可查，问题不过夜

所有运行日志已自动写入/root/inference.log。任何时候怀疑服务异常，只需在终端执行：

tail -f /root/inference.log

按Ctrl+C退出实时跟踪。日志中会清晰记录每次请求、模型加载进度、错误堆栈，比盲猜高效十倍。

6.2 多轮对话不丢上下文（亲测有效）

GLM-4.6V-Flash-WEB 支持连续提问。例如：

问：“图中左上角的Logo是什么公司？” → 回答：“智谱AI”
紧接着问：“他们的Slogan是什么？” → 模型会结合前序图像与问题，尝试从图中识别或调用知识

关键：两次提问间隔不超过90秒，且不刷新页面。

6.3 快速切换模型能力（无需重装）

该镜像默认启用视觉理解模式。如需纯文本生成（如续写故事、写邮件），可在Jupyter中新建Notebook，运行：

from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("/root/GLM-4.6V-Flash/model", trust_remote_code=True) model = AutoModel.from_pretrained("/root/GLM-4.6V-Flash/model", trust_remote_code=True).cuda() response, history = model.chat(tokenizer, "你好，请写一封产品上线通知邮件", history=[]) print(response)

即刻获得大语言模型的文本生成能力，无需额外部署。

7. 总结：你已掌握一套可复用的VLM Web部署心法

回顾这趟旅程，你实际完成的不只是“跑通GLM-4.6V-Flash-WEB”，而是建立了一套轻量级多模态模型落地的方法论：

你学会了如何判断环境是否真正就绪（GPU、Jupyter、文件完整性）；
你掌握了服务启动的正确姿势（nohup + 日志 + 后台，而非裸奔执行）；
你拥有了三种可靠访问路径，并能根据平台特性快速切换；
你建立了问题定位的直觉：本地通 → 外网不通 → 查安全组；服务启 → 无响应 → 查端口；界面开 → 问答卡 → 查显存；
你完成了从上传、提问、到获得可信回答的端到端闭环，验证了模型的真实可用性。

这套流程，同样适用于 LLaVA-1.6、Qwen-VL、MiniCPM-V 等绝大多数开源VLM Web镜像。下次遇到新模型，你不再需要从头读文档，而是直接打开Jupyter，执行那行熟悉的nohup ./1键推理.sh。

真正的效率，从来不是“一键”，而是“懂键”。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

手把手教你运行GLM-4.6V-Flash-WEB，Jupyter一键启动全流程