news 2026/4/23 13:39:50

ChatGLM3-6B-128K与MobaXterm集成:远程开发环境配置

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ChatGLM3-6B-128K与MobaXterm集成:远程开发环境配置

ChatGLM3-6B-128K与MobaXterm集成:远程开发环境配置

你是不是也遇到过这种情况:本地电脑配置不够,跑不动大模型,但手头正好有一台性能不错的远程服务器?或者,你需要在不同设备间切换工作,希望有一个统一的、功能强大的终端环境来管理远程的AI项目?

今天,我们就来解决这个问题。我将手把手带你,用MobaXterm这个“瑞士军刀”般的工具,搭建一个连接远程服务器、运行ChatGLM3-6B-128K长文本大模型的开发环境。整个过程就像搭积木一样简单,无论你是开发者还是运维,都能轻松上手。

1. 为什么选择这个组合?

在开始动手之前,我们先聊聊为什么是MobaXtermChatGLM3-6B-128K这个组合。

MobaXterm可不是一个普通的终端软件。你可以把它想象成一个“超级工具箱”,它把 SSH 客户端、SFTP 文件浏览器、X11 服务器、网络工具等等都打包在了一起。对于远程开发来说,最大的好处就是:一个窗口搞定所有事。你不再需要开一堆 PuTTY、WinSCP、Xming 之类的软件,所有操作都在 MobaXterm 里完成,文件拖拽上传、图形界面转发都变得异常简单。

ChatGLM3-6B-128K,作为 ChatGLM 系列的最新成员,最大的亮点就是那个“128K”。这意味着它能处理长达 12.8 万个 token 的上下文,换算成汉字大约是 9 万字,相当于一本中等厚度的小说。这对于需要分析长文档、进行多轮复杂对话的场景来说,是巨大的优势。而且它部署门槛低,对话流畅,还原生支持工具调用、代码执行等高级功能,非常适合在远程服务器上作为常驻服务来使用。

把这两者结合起来,你就能在任何一台能上网的 Windows 电脑上,获得一个功能完整、操作便捷的 AI 开发工作站。

2. 准备工作:软件与服务器

咱们先看看需要准备些什么。别担心,东西不多。

2.1 本地电脑(你的Windows机器)

首先,去 MobaXterm 官网下载它的免费版本(Home Edition)。这个免费版功能已经非常强大了,完全够用。下载下来是个安装包,一路“下一步”安装就行,没什么坑。

2.2 远程服务器(跑模型的地方)

这是核心。你需要一台有 GPU 的远程 Linux 服务器。现在很多云服务商都提供按小时计费的 GPU 实例,非常灵活。配置上,建议至少:

  • GPU: NVIDIA 显卡,显存8GB 以上。运行 ChatGLM3-6B-128K 的 FP16 版本比较稳妥。
  • 内存: 16GB 或以上。
  • 存储: 预留至少 20GB 空间给模型和依赖。
  • 系统: Ubuntu 20.04/22.04 或 CentOS 7/8 等常见的 Linux 发行版。

确保你拥有这台服务器的 SSH 登录权限(用户名、密码或密钥)。这是连接它的钥匙。

3. 第一步:用MobaXterm连接远程服务器

打开安装好的 MobaXterm,它的主界面很直观。

  1. 点击左上角的“Session”按钮。
  2. 在弹出的窗口里,选择“SSH”
  3. “Remote host”栏里,填入你的服务器 IP 地址或域名。
  4. “Specify username”打勾,并填入你的登录用户名(比如rootubuntu)。
  5. 端口默认是 22,如果没改过就不用动。
  6. 点击“OK”

如果是第一次连接这台服务器,MobaXterm 会提示你确认主机密钥,点“Accept”就行。接着会弹出密码输入框,输入你的服务器密码。如果一切顺利,你就会看到熟悉的 Linux 命令行提示符出现在 MobaXterm 的标签页里了。

小技巧:左侧边栏会自动展开一个以你服务器IP命名的文件夹,这就是内置的SFTP文件浏览器!你可以直接在这里拖拽文件到服务器,或者从服务器下载文件到本地,管理代码和模型文件超级方便。

4. 第二步:在服务器上部署ChatGLM3-6B-128K

连接上服务器后,我们就在这个 MobaXterm 的终端里操作。这里我推荐使用Ollama来部署,因为它实在太简单了。

Ollama 是一个专门用来在本地运行大模型的工具,一条命令就能完成模型的下载、加载和运行。

4.1 安装Ollama

在 MobaXterm 的终端里,执行以下命令:

curl -fsSL https://ollama.com/install.sh | sh

这个脚本会自动检测你的系统,并安装 Ollama。安装完成后,Ollama 服务会自动启动。

4.2 拉取并运行ChatGLM3-6B-128K模型

安装好 Ollama 后,运行模型只需要一行命令:

ollama run entropyyue/chatglm3:6b

注意:在 Ollama 的模型库中,entropyyue/chatglm3:6b这个标签对应的就是支持 128K 上下文的 ChatGLM3-6B-128K 版本。

第一次运行时会自动从网上下载模型文件,大约 3.6GB,需要一些时间,请耐心等待。下载完成后,模型会自动加载,并进入一个交互式对话界面。你可以试试跟它打个招呼:

>>> 你好,请介绍一下你自己。

如果它开始流畅地回复,恭喜你,模型已经在你的远程服务器上跑起来了!

4.3 让模型在后台运行(作为服务)

我们当然不希望每次用的时候都手动敲命令启动。我们可以让 Ollama 以服务方式运行模型,并开放一个 API 端口供我们调用。

首先,按Ctrl+C退出刚才的交互界面。然后,创建一个模型运行文件:

ollama serve &

这条命令会让 Ollama 在后台启动服务。默认情况下,它会监听本地的 11434 端口。为了能从我们的本地电脑访问,我们需要让它监听所有网络接口(或者至少监听服务器内网IP)。更规范的做法是查看 Ollama 的服务配置文件,但一个快速的测试方法是直接运行:

OLLAMA_HOST=0.0.0.0 ollama serve &

重要安全提示:在生产环境中,将服务暴露在0.0.0.0有安全风险。务必确保你的服务器防火墙(如ufw)只允许特定的 IP 地址(比如你的办公网络 IP)访问 11434 端口。这里仅为演示。

现在,模型服务已经在后台运行了。你可以用curl测试一下 API 是否通畅(在服务器上另开一个 MobaXterm 终端标签页):

curl http://localhost:11434/api/generate -d '{ "model": "entropyyue/chatglm3:6b", "prompt": "天空为什么是蓝色的?", "stream": false }'

如果返回了一段 JSON 格式的答案,说明 API 服务运行正常。

5. 第三步:从本地访问远程模型

模型在远程服务器上跑起来了,我们怎么在自己的电脑上使用它呢?有两种主流方式:通过API或者使用Web UI

5.1 方式一:通过API直接调用(最灵活)

这是开发者最喜欢的方式。我们在本地写一个简单的 Python 脚本,通过 HTTP 请求调用远程服务器的 Ollama API。

首先,在你的本地电脑上创建一个 Python 脚本,比如叫call_remote_glm.py

import requests import json # 配置:你的远程服务器IP和Ollama端口 OLLAMA_SERVER = "http://你的服务器IP:11434" MODEL_NAME = "entropyyue/chatglm3:6b" def ask_glm(prompt): """向远程ChatGLM模型发送提问""" url = f"{OLLAMA_SERVER}/api/generate" payload = { "model": MODEL_NAME, "prompt": prompt, "stream": False } try: response = requests.post(url, json=payload, timeout=60) response.raise_for_status() # 检查HTTP错误 result = response.json() return result.get("response", "模型未返回有效答案。") except requests.exceptions.RequestException as e: return f"请求出错:{e}" except json.JSONDecodeError: return "解析模型响应失败。" if __name__ == "__main__": # 测试一下 question = "用简单的语言解释一下机器学习。" answer = ask_glm(question) print(f"问:{question}") print(f"答:{answer}")

运行这个脚本前,记得在本地安装requests库:pip install requests。然后把脚本中的你的服务器IP替换成实际地址。运行后,你就能在本地电脑上看到远程模型的回答了。

5.2 方式二:部署Web UI(图形化,更友好)

如果你喜欢像 ChatGPT 那样的网页聊天界面,可以给 Ollama 套一个 Web 前端。Open WebUI(原名 Ollama WebUI)是个非常好的选择,但部署稍复杂。这里介绍一个更轻量的方法:使用 Ollama 自带的简单前端,并通过 MobaXterm 的端口转发功能暴露到本地。

  1. 在服务器上启动 Ollama 的 Web 端点:确保 Ollama 服务正在运行(OLLAMA_HOST=0.0.0.0 ollama serve &)。
  2. 在 MobaXterm 中设置端口转发
    • 在已经建立的 SSH 会话标签页上右键,选择“Tunneling” -> “New tunnel”
    • 选择“Local port forwarding”
    • Local port填一个本地没被占用的端口,比如8080
    • Remote serverlocalhostRemote port11434(Ollama 端口)。
    • 点击“Start”
  3. 访问本地Web界面:打开你的本地浏览器,访问http://localhost:8080。请注意,Ollama 原生提供的 API 端口(11434)并不是一个图形化 Web UI。你需要额外部署像 Open WebUI 这样的项目才能获得完整界面。上述端口转发主要是为了方便本地脚本调用 API。

对于想要完整 Web UI 的用户,建议参考 Open WebUI 的文档在服务器上进行部署,然后再将其服务端口(通常是 8080)通过类似的端口转发方法映射到本地。

6. 常见问题与排错指南

路上遇到小坑很正常,这里有几个常见问题的解决办法:

  • 连接被拒绝:检查服务器 IP、用户名、密码是否正确;确认服务器防火墙是否开放了 22 端口(SSH)。
  • Ollama 命令未找到:安装完成后,尝试关闭当前终端,新开一个 MobaXterm 会话再登录,或者手动执行source ~/.bashrc
  • 模型下载慢或失败:可以尝试配置镜像源,或者先在有更好网络的环境下载模型文件,再通过 MobaXterm 的 SFTP 功能上传到服务器特定目录。
  • 运行模型时显存不足:可以尝试运行量化版本(如果 Ollama 提供的话),例如ollama run entropyyue/chatglm3:6b-q4_0。或者在启动 Ollama 时限制 GPU 内存使用(需参考 Ollama 高级配置)。
  • 本地脚本无法连接远程API:首先在服务器上用curl http://localhost:11434/api/tags测试 API 是否正常。如果不通,检查 Ollama 服务是否在运行。如果服务器上通但本地不通,检查服务器防火墙和安全组规则,是否放行了 11434 端口的入站流量。

整体配置下来,感觉这套组合拳确实挺高效的。MobaXterm 把繁琐的远程管理操作变得可视化、一体化,省去了在不同工具间切换的麻烦。而 Ollama 则把大模型部署这个曾经很复杂的过程,简化到了极致。对于需要远程使用 AI 能力的场景,比如分析放在服务器上的长文档、构建自动化客服原型,或者只是想要一个不受本地性能限制的代码助手,这个方案都值得一试。

当然,这只是个起点。你可以在此基础上,探索模型的微调、集成到更复杂的应用 pipeline 中,或者尝试其他同样优秀的大模型。关键是,你现在有了一个随时可以访问的、强大的远程 AI 开发环境。

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 13:39:04

Poppler-Windows:跨平台PDF处理的技术伙伴与效率引擎

Poppler-Windows:跨平台PDF处理的技术伙伴与效率引擎 【免费下载链接】poppler-windows Download Poppler binaries packaged for Windows with dependencies 项目地址: https://gitcode.com/gh_mirrors/po/poppler-windows 你是否也曾在处理PDF文档时遭遇过…

作者头像 李华
网站建设 2026/4/23 13:39:09

Balena Etcher镜像烧录工具技术指南

Balena Etcher镜像烧录工具技术指南 【免费下载链接】etcher Flash OS images to SD cards & USB drives, safely and easily. 项目地址: https://gitcode.com/GitHub_Trending/et/etcher Balena Etcher是一款开源跨平台的镜像烧录工具,专注于提供安全、…

作者头像 李华
网站建设 2026/4/23 13:39:47

惊艳效果展示:Qwen3-ForcedAligner毫秒级时间戳精准对齐案例

惊艳效果展示:Qwen3-ForcedAligner毫秒级时间戳精准对齐案例 【免费下载链接】Qwen3-ForcedAligner-0.6B 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-ForcedAligner-0.6B 导语:当语音转文字不再只是“听清了说什么”,而是能精…

作者头像 李华
网站建设 2026/4/22 14:56:02

Lychee Rerank在嵌入式系统中的应用:STM32F103C8T6平台适配

Lychee Rerank在嵌入式系统中的应用:STM32F103C8T6平台适配 1. 为什么要在STM32F103C8T6上跑重排序模型? 你可能已经习惯了在服务器或GPU上运行AI模型,但有没有想过,那些小小的嵌入式设备——比如一块只有64KB闪存、20KB内存的S…

作者头像 李华
网站建设 2026/4/23 13:39:09

NFD网盘直链解析工具:技术解密与创新突破

NFD网盘直链解析工具:技术解密与创新突破 【免费下载链接】netdisk-fast-download 各类网盘直链解析, 已支持蓝奏云/奶牛快传/移动云云空间/UC网盘/小飞机盘/亿方云/123云盘等. 预览地址 https://lz.qaiu.top 项目地址: https://gitcode.com/gh_mirrors/ne/netdis…

作者头像 李华