ChatGLM3-6B-128K与MobaXterm集成：远程开发环境配置-深圳市維司達科技有限公司

ChatGLM3-6B-128K与MobaXterm集成：远程开发环境配置

你是不是也遇到过这种情况：本地电脑配置不够，跑不动大模型，但手头正好有一台性能不错的远程服务器？或者，你需要在不同设备间切换工作，希望有一个统一的、功能强大的终端环境来管理远程的AI项目？

今天，我们就来解决这个问题。我将手把手带你，用MobaXterm这个“瑞士军刀”般的工具，搭建一个连接远程服务器、运行ChatGLM3-6B-128K长文本大模型的开发环境。整个过程就像搭积木一样简单，无论你是开发者还是运维，都能轻松上手。

1. 为什么选择这个组合？

在开始动手之前，我们先聊聊为什么是MobaXterm和ChatGLM3-6B-128K这个组合。

MobaXterm可不是一个普通的终端软件。你可以把它想象成一个“超级工具箱”，它把 SSH 客户端、SFTP 文件浏览器、X11 服务器、网络工具等等都打包在了一起。对于远程开发来说，最大的好处就是：一个窗口搞定所有事。你不再需要开一堆 PuTTY、WinSCP、Xming 之类的软件，所有操作都在 MobaXterm 里完成，文件拖拽上传、图形界面转发都变得异常简单。

而ChatGLM3-6B-128K，作为 ChatGLM 系列的最新成员，最大的亮点就是那个“128K”。这意味着它能处理长达 12.8 万个 token 的上下文，换算成汉字大约是 9 万字，相当于一本中等厚度的小说。这对于需要分析长文档、进行多轮复杂对话的场景来说，是巨大的优势。而且它部署门槛低，对话流畅，还原生支持工具调用、代码执行等高级功能，非常适合在远程服务器上作为常驻服务来使用。

把这两者结合起来，你就能在任何一台能上网的 Windows 电脑上，获得一个功能完整、操作便捷的 AI 开发工作站。

2. 准备工作：软件与服务器

咱们先看看需要准备些什么。别担心，东西不多。

2.1 本地电脑（你的Windows机器）

首先，去 MobaXterm 官网下载它的免费版本（Home Edition）。这个免费版功能已经非常强大了，完全够用。下载下来是个安装包，一路“下一步”安装就行，没什么坑。

2.2 远程服务器（跑模型的地方）

这是核心。你需要一台有 GPU 的远程 Linux 服务器。现在很多云服务商都提供按小时计费的 GPU 实例，非常灵活。配置上，建议至少：

GPU: NVIDIA 显卡，显存8GB 以上。运行 ChatGLM3-6B-128K 的 FP16 版本比较稳妥。
内存: 16GB 或以上。
存储: 预留至少 20GB 空间给模型和依赖。
系统: Ubuntu 20.04/22.04 或 CentOS 7/8 等常见的 Linux 发行版。

确保你拥有这台服务器的 SSH 登录权限（用户名、密码或密钥）。这是连接它的钥匙。

3. 第一步：用MobaXterm连接远程服务器

打开安装好的 MobaXterm，它的主界面很直观。

点击左上角的“Session”按钮。
在弹出的窗口里，选择“SSH”。
在“Remote host”栏里，填入你的服务器 IP 地址或域名。
“Specify username”打勾，并填入你的登录用户名（比如root或ubuntu）。
端口默认是 22，如果没改过就不用动。
点击“OK”。

如果是第一次连接这台服务器，MobaXterm 会提示你确认主机密钥，点“Accept”就行。接着会弹出密码输入框，输入你的服务器密码。如果一切顺利，你就会看到熟悉的 Linux 命令行提示符出现在 MobaXterm 的标签页里了。

小技巧：左侧边栏会自动展开一个以你服务器IP命名的文件夹，这就是内置的SFTP文件浏览器！你可以直接在这里拖拽文件到服务器，或者从服务器下载文件到本地，管理代码和模型文件超级方便。

4. 第二步：在服务器上部署ChatGLM3-6B-128K

连接上服务器后，我们就在这个 MobaXterm 的终端里操作。这里我推荐使用Ollama来部署，因为它实在太简单了。

Ollama 是一个专门用来在本地运行大模型的工具，一条命令就能完成模型的下载、加载和运行。

4.1 安装Ollama

在 MobaXterm 的终端里，执行以下命令：

curl -fsSL https://ollama.com/install.sh | sh

这个脚本会自动检测你的系统，并安装 Ollama。安装完成后，Ollama 服务会自动启动。

4.2 拉取并运行ChatGLM3-6B-128K模型

安装好 Ollama 后，运行模型只需要一行命令：

ollama run entropyyue/chatglm3:6b

注意：在 Ollama 的模型库中，entropyyue/chatglm3:6b这个标签对应的就是支持 128K 上下文的 ChatGLM3-6B-128K 版本。

第一次运行时会自动从网上下载模型文件，大约 3.6GB，需要一些时间，请耐心等待。下载完成后，模型会自动加载，并进入一个交互式对话界面。你可以试试跟它打个招呼：

>>> 你好，请介绍一下你自己。

如果它开始流畅地回复，恭喜你，模型已经在你的远程服务器上跑起来了！

4.3 让模型在后台运行（作为服务）

我们当然不希望每次用的时候都手动敲命令启动。我们可以让 Ollama 以服务方式运行模型，并开放一个 API 端口供我们调用。

首先，按Ctrl+C退出刚才的交互界面。然后，创建一个模型运行文件：

ollama serve &

这条命令会让 Ollama 在后台启动服务。默认情况下，它会监听本地的 11434 端口。为了能从我们的本地电脑访问，我们需要让它监听所有网络接口（或者至少监听服务器内网IP）。更规范的做法是查看 Ollama 的服务配置文件，但一个快速的测试方法是直接运行：

OLLAMA_HOST=0.0.0.0 ollama serve &

重要安全提示：在生产环境中，将服务暴露在0.0.0.0有安全风险。务必确保你的服务器防火墙（如ufw）只允许特定的 IP 地址（比如你的办公网络 IP）访问 11434 端口。这里仅为演示。

现在，模型服务已经在后台运行了。你可以用curl测试一下 API 是否通畅（在服务器上另开一个 MobaXterm 终端标签页）：

curl http://localhost:11434/api/generate -d '{ "model": "entropyyue/chatglm3:6b", "prompt": "天空为什么是蓝色的？", "stream": false }'

如果返回了一段 JSON 格式的答案，说明 API 服务运行正常。

5. 第三步：从本地访问远程模型

模型在远程服务器上跑起来了，我们怎么在自己的电脑上使用它呢？有两种主流方式：通过API或者使用Web UI。

5.1 方式一：通过API直接调用（最灵活）

这是开发者最喜欢的方式。我们在本地写一个简单的 Python 脚本，通过 HTTP 请求调用远程服务器的 Ollama API。

首先，在你的本地电脑上创建一个 Python 脚本，比如叫call_remote_glm.py：

import requests import json # 配置：你的远程服务器IP和Ollama端口 OLLAMA_SERVER = "http://你的服务器IP:11434" MODEL_NAME = "entropyyue/chatglm3:6b" def ask_glm(prompt): """向远程ChatGLM模型发送提问""" url = f"{OLLAMA_SERVER}/api/generate" payload = { "model": MODEL_NAME, "prompt": prompt, "stream": False } try: response = requests.post(url, json=payload, timeout=60) response.raise_for_status() # 检查HTTP错误 result = response.json() return result.get("response", "模型未返回有效答案。") except requests.exceptions.RequestException as e: return f"请求出错：{e}" except json.JSONDecodeError: return "解析模型响应失败。" if __name__ == "__main__": # 测试一下 question = "用简单的语言解释一下机器学习。" answer = ask_glm(question) print(f"问：{question}") print(f"答：{answer}")

运行这个脚本前，记得在本地安装requests库：pip install requests。然后把脚本中的你的服务器IP替换成实际地址。运行后，你就能在本地电脑上看到远程模型的回答了。

5.2 方式二：部署Web UI（图形化，更友好）

如果你喜欢像 ChatGPT 那样的网页聊天界面，可以给 Ollama 套一个 Web 前端。Open WebUI（原名 Ollama WebUI）是个非常好的选择，但部署稍复杂。这里介绍一个更轻量的方法：使用 Ollama 自带的简单前端，并通过 MobaXterm 的端口转发功能暴露到本地。

在服务器上启动 Ollama 的 Web 端点：确保 Ollama 服务正在运行（OLLAMA_HOST=0.0.0.0 ollama serve &）。
在 MobaXterm 中设置端口转发：
- 在已经建立的 SSH 会话标签页上右键，选择“Tunneling” -> “New tunnel”。
- 选择“Local port forwarding”。
- Local port填一个本地没被占用的端口，比如8080。
- Remote server填localhost，Remote port填11434（Ollama 端口）。
- 点击“Start”。
访问本地Web界面：打开你的本地浏览器，访问http://localhost:8080。请注意，Ollama 原生提供的 API 端口（11434）并不是一个图形化 Web UI。你需要额外部署像 Open WebUI 这样的项目才能获得完整界面。上述端口转发主要是为了方便本地脚本调用 API。

对于想要完整 Web UI 的用户，建议参考 Open WebUI 的文档在服务器上进行部署，然后再将其服务端口（通常是 8080）通过类似的端口转发方法映射到本地。

6. 常见问题与排错指南

路上遇到小坑很正常，这里有几个常见问题的解决办法：

连接被拒绝：检查服务器 IP、用户名、密码是否正确；确认服务器防火墙是否开放了 22 端口（SSH）。
Ollama 命令未找到：安装完成后，尝试关闭当前终端，新开一个 MobaXterm 会话再登录，或者手动执行source ~/.bashrc。
模型下载慢或失败：可以尝试配置镜像源，或者先在有更好网络的环境下载模型文件，再通过 MobaXterm 的 SFTP 功能上传到服务器特定目录。
运行模型时显存不足：可以尝试运行量化版本（如果 Ollama 提供的话），例如ollama run entropyyue/chatglm3:6b-q4_0。或者在启动 Ollama 时限制 GPU 内存使用（需参考 Ollama 高级配置）。
本地脚本无法连接远程API：首先在服务器上用curl http://localhost:11434/api/tags测试 API 是否正常。如果不通，检查 Ollama 服务是否在运行。如果服务器上通但本地不通，检查服务器防火墙和安全组规则，是否放行了 11434 端口的入站流量。

整体配置下来，感觉这套组合拳确实挺高效的。MobaXterm 把繁琐的远程管理操作变得可视化、一体化，省去了在不同工具间切换的麻烦。而 Ollama 则把大模型部署这个曾经很复杂的过程，简化到了极致。对于需要远程使用 AI 能力的场景，比如分析放在服务器上的长文档、构建自动化客服原型，或者只是想要一个不受本地性能限制的代码助手，这个方案都值得一试。

当然，这只是个起点。你可以在此基础上，探索模型的微调、集成到更复杂的应用 pipeline 中，或者尝试其他同样优秀的大模型。关键是，你现在有了一个随时可以访问的、强大的远程 AI 开发环境。