ChatGLM3-6B-128K与MobaXterm集成:远程开发环境配置
你是不是也遇到过这种情况:本地电脑配置不够,跑不动大模型,但手头正好有一台性能不错的远程服务器?或者,你需要在不同设备间切换工作,希望有一个统一的、功能强大的终端环境来管理远程的AI项目?
今天,我们就来解决这个问题。我将手把手带你,用MobaXterm这个“瑞士军刀”般的工具,搭建一个连接远程服务器、运行ChatGLM3-6B-128K长文本大模型的开发环境。整个过程就像搭积木一样简单,无论你是开发者还是运维,都能轻松上手。
1. 为什么选择这个组合?
在开始动手之前,我们先聊聊为什么是MobaXterm和ChatGLM3-6B-128K这个组合。
MobaXterm可不是一个普通的终端软件。你可以把它想象成一个“超级工具箱”,它把 SSH 客户端、SFTP 文件浏览器、X11 服务器、网络工具等等都打包在了一起。对于远程开发来说,最大的好处就是:一个窗口搞定所有事。你不再需要开一堆 PuTTY、WinSCP、Xming 之类的软件,所有操作都在 MobaXterm 里完成,文件拖拽上传、图形界面转发都变得异常简单。
而ChatGLM3-6B-128K,作为 ChatGLM 系列的最新成员,最大的亮点就是那个“128K”。这意味着它能处理长达 12.8 万个 token 的上下文,换算成汉字大约是 9 万字,相当于一本中等厚度的小说。这对于需要分析长文档、进行多轮复杂对话的场景来说,是巨大的优势。而且它部署门槛低,对话流畅,还原生支持工具调用、代码执行等高级功能,非常适合在远程服务器上作为常驻服务来使用。
把这两者结合起来,你就能在任何一台能上网的 Windows 电脑上,获得一个功能完整、操作便捷的 AI 开发工作站。
2. 准备工作:软件与服务器
咱们先看看需要准备些什么。别担心,东西不多。
2.1 本地电脑(你的Windows机器)
首先,去 MobaXterm 官网下载它的免费版本(Home Edition)。这个免费版功能已经非常强大了,完全够用。下载下来是个安装包,一路“下一步”安装就行,没什么坑。
2.2 远程服务器(跑模型的地方)
这是核心。你需要一台有 GPU 的远程 Linux 服务器。现在很多云服务商都提供按小时计费的 GPU 实例,非常灵活。配置上,建议至少:
- GPU: NVIDIA 显卡,显存8GB 以上。运行 ChatGLM3-6B-128K 的 FP16 版本比较稳妥。
- 内存: 16GB 或以上。
- 存储: 预留至少 20GB 空间给模型和依赖。
- 系统: Ubuntu 20.04/22.04 或 CentOS 7/8 等常见的 Linux 发行版。
确保你拥有这台服务器的 SSH 登录权限(用户名、密码或密钥)。这是连接它的钥匙。
3. 第一步:用MobaXterm连接远程服务器
打开安装好的 MobaXterm,它的主界面很直观。
- 点击左上角的“Session”按钮。
- 在弹出的窗口里,选择“SSH”。
- 在“Remote host”栏里,填入你的服务器 IP 地址或域名。
- “Specify username”打勾,并填入你的登录用户名(比如
root或ubuntu)。 - 端口默认是 22,如果没改过就不用动。
- 点击“OK”。
如果是第一次连接这台服务器,MobaXterm 会提示你确认主机密钥,点“Accept”就行。接着会弹出密码输入框,输入你的服务器密码。如果一切顺利,你就会看到熟悉的 Linux 命令行提示符出现在 MobaXterm 的标签页里了。
小技巧:左侧边栏会自动展开一个以你服务器IP命名的文件夹,这就是内置的SFTP文件浏览器!你可以直接在这里拖拽文件到服务器,或者从服务器下载文件到本地,管理代码和模型文件超级方便。
4. 第二步:在服务器上部署ChatGLM3-6B-128K
连接上服务器后,我们就在这个 MobaXterm 的终端里操作。这里我推荐使用Ollama来部署,因为它实在太简单了。
Ollama 是一个专门用来在本地运行大模型的工具,一条命令就能完成模型的下载、加载和运行。
4.1 安装Ollama
在 MobaXterm 的终端里,执行以下命令:
curl -fsSL https://ollama.com/install.sh | sh这个脚本会自动检测你的系统,并安装 Ollama。安装完成后,Ollama 服务会自动启动。
4.2 拉取并运行ChatGLM3-6B-128K模型
安装好 Ollama 后,运行模型只需要一行命令:
ollama run entropyyue/chatglm3:6b注意:在 Ollama 的模型库中,entropyyue/chatglm3:6b这个标签对应的就是支持 128K 上下文的 ChatGLM3-6B-128K 版本。
第一次运行时会自动从网上下载模型文件,大约 3.6GB,需要一些时间,请耐心等待。下载完成后,模型会自动加载,并进入一个交互式对话界面。你可以试试跟它打个招呼:
>>> 你好,请介绍一下你自己。如果它开始流畅地回复,恭喜你,模型已经在你的远程服务器上跑起来了!
4.3 让模型在后台运行(作为服务)
我们当然不希望每次用的时候都手动敲命令启动。我们可以让 Ollama 以服务方式运行模型,并开放一个 API 端口供我们调用。
首先,按Ctrl+C退出刚才的交互界面。然后,创建一个模型运行文件:
ollama serve &这条命令会让 Ollama 在后台启动服务。默认情况下,它会监听本地的 11434 端口。为了能从我们的本地电脑访问,我们需要让它监听所有网络接口(或者至少监听服务器内网IP)。更规范的做法是查看 Ollama 的服务配置文件,但一个快速的测试方法是直接运行:
OLLAMA_HOST=0.0.0.0 ollama serve &重要安全提示:在生产环境中,将服务暴露在0.0.0.0有安全风险。务必确保你的服务器防火墙(如ufw)只允许特定的 IP 地址(比如你的办公网络 IP)访问 11434 端口。这里仅为演示。
现在,模型服务已经在后台运行了。你可以用curl测试一下 API 是否通畅(在服务器上另开一个 MobaXterm 终端标签页):
curl http://localhost:11434/api/generate -d '{ "model": "entropyyue/chatglm3:6b", "prompt": "天空为什么是蓝色的?", "stream": false }'如果返回了一段 JSON 格式的答案,说明 API 服务运行正常。
5. 第三步:从本地访问远程模型
模型在远程服务器上跑起来了,我们怎么在自己的电脑上使用它呢?有两种主流方式:通过API或者使用Web UI。
5.1 方式一:通过API直接调用(最灵活)
这是开发者最喜欢的方式。我们在本地写一个简单的 Python 脚本,通过 HTTP 请求调用远程服务器的 Ollama API。
首先,在你的本地电脑上创建一个 Python 脚本,比如叫call_remote_glm.py:
import requests import json # 配置:你的远程服务器IP和Ollama端口 OLLAMA_SERVER = "http://你的服务器IP:11434" MODEL_NAME = "entropyyue/chatglm3:6b" def ask_glm(prompt): """向远程ChatGLM模型发送提问""" url = f"{OLLAMA_SERVER}/api/generate" payload = { "model": MODEL_NAME, "prompt": prompt, "stream": False } try: response = requests.post(url, json=payload, timeout=60) response.raise_for_status() # 检查HTTP错误 result = response.json() return result.get("response", "模型未返回有效答案。") except requests.exceptions.RequestException as e: return f"请求出错:{e}" except json.JSONDecodeError: return "解析模型响应失败。" if __name__ == "__main__": # 测试一下 question = "用简单的语言解释一下机器学习。" answer = ask_glm(question) print(f"问:{question}") print(f"答:{answer}")运行这个脚本前,记得在本地安装requests库:pip install requests。然后把脚本中的你的服务器IP替换成实际地址。运行后,你就能在本地电脑上看到远程模型的回答了。
5.2 方式二:部署Web UI(图形化,更友好)
如果你喜欢像 ChatGPT 那样的网页聊天界面,可以给 Ollama 套一个 Web 前端。Open WebUI(原名 Ollama WebUI)是个非常好的选择,但部署稍复杂。这里介绍一个更轻量的方法:使用 Ollama 自带的简单前端,并通过 MobaXterm 的端口转发功能暴露到本地。
- 在服务器上启动 Ollama 的 Web 端点:确保 Ollama 服务正在运行(
OLLAMA_HOST=0.0.0.0 ollama serve &)。 - 在 MobaXterm 中设置端口转发:
- 在已经建立的 SSH 会话标签页上右键,选择“Tunneling” -> “New tunnel”。
- 选择“Local port forwarding”。
- Local port填一个本地没被占用的端口,比如
8080。 - Remote server填
localhost,Remote port填11434(Ollama 端口)。 - 点击“Start”。
- 访问本地Web界面:打开你的本地浏览器,访问
http://localhost:8080。请注意,Ollama 原生提供的 API 端口(11434)并不是一个图形化 Web UI。你需要额外部署像 Open WebUI 这样的项目才能获得完整界面。上述端口转发主要是为了方便本地脚本调用 API。
对于想要完整 Web UI 的用户,建议参考 Open WebUI 的文档在服务器上进行部署,然后再将其服务端口(通常是 8080)通过类似的端口转发方法映射到本地。
6. 常见问题与排错指南
路上遇到小坑很正常,这里有几个常见问题的解决办法:
- 连接被拒绝:检查服务器 IP、用户名、密码是否正确;确认服务器防火墙是否开放了 22 端口(SSH)。
- Ollama 命令未找到:安装完成后,尝试关闭当前终端,新开一个 MobaXterm 会话再登录,或者手动执行
source ~/.bashrc。 - 模型下载慢或失败:可以尝试配置镜像源,或者先在有更好网络的环境下载模型文件,再通过 MobaXterm 的 SFTP 功能上传到服务器特定目录。
- 运行模型时显存不足:可以尝试运行量化版本(如果 Ollama 提供的话),例如
ollama run entropyyue/chatglm3:6b-q4_0。或者在启动 Ollama 时限制 GPU 内存使用(需参考 Ollama 高级配置)。 - 本地脚本无法连接远程API:首先在服务器上用
curl http://localhost:11434/api/tags测试 API 是否正常。如果不通,检查 Ollama 服务是否在运行。如果服务器上通但本地不通,检查服务器防火墙和安全组规则,是否放行了 11434 端口的入站流量。
整体配置下来,感觉这套组合拳确实挺高效的。MobaXterm 把繁琐的远程管理操作变得可视化、一体化,省去了在不同工具间切换的麻烦。而 Ollama 则把大模型部署这个曾经很复杂的过程,简化到了极致。对于需要远程使用 AI 能力的场景,比如分析放在服务器上的长文档、构建自动化客服原型,或者只是想要一个不受本地性能限制的代码助手,这个方案都值得一试。
当然,这只是个起点。你可以在此基础上,探索模型的微调、集成到更复杂的应用 pipeline 中,或者尝试其他同样优秀的大模型。关键是,你现在有了一个随时可以访问的、强大的远程 AI 开发环境。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。