Ollama部署ChatGLM3-6B-128K完整教程：含HTTPS反向代理与域名访问配置-深圳市維司達科技有限公司

Ollama部署ChatGLM3-6B-128K完整教程：含HTTPS反向代理与域名访问配置

1. 为什么选择ChatGLM3-6B-128K

当你需要处理一份长达数万字的技术文档、分析整本PDF报告，或者连续对话中需要记住大量上下文信息时，普通大模型往往会在中途“忘记”前面说过的内容。而ChatGLM3-6B-128K正是为这类长文本场景量身打造的解决方案。

它不是简单地把上下文长度拉到128K就完事了——这个数字背后是实打实的工程优化：重新设计的位置编码机制让模型能真正理解超长文本中的逻辑关系，配合专门设计的长文本训练策略，确保在真实使用中不会出现“开头记得清、结尾全忘光”的尴尬情况。

如果你日常处理的文本基本在8K字符以内（比如写邮件、改文案、查资料），那标准版ChatGLM3-6B已经足够好用；但一旦你面对的是法律合同全文、科研论文合集、产品需求文档集合，或者需要让AI持续扮演某个角色完成多轮复杂任务，ChatGLM3-6B-128K就是更稳妥的选择。

更重要的是，它延续了ChatGLM系列一贯的友好特性：部署门槛低、响应速度快、本地运行不依赖云服务。而Ollama作为当前最轻量、最易上手的大模型运行平台，恰好为它提供了完美的落地环境——不用折腾CUDA版本，不用手动编译，一条命令就能拉起服务。

2. 环境准备与Ollama快速部署

2.1 系统要求与基础安装

ChatGLM3-6B-128K对硬件有一定要求，但远低于动辄需要A100的同类模型。我们推荐以下最低配置：

CPU：Intel i7 或 AMD Ryzen 7 及以上（支持AVX2指令集）
内存：32GB RAM（推理时占用约24GB，留有余量保障系统稳定）
显卡（可选）：NVIDIA GPU（RTX 3060 12G及以上，启用GPU加速后推理速度提升2–3倍）
操作系统：Ubuntu 22.04 LTS（推荐）、macOS Ventura+、Windows 11（WSL2环境）

注意：Ollama官方未提供ARM架构（如M1/M2 Mac）的预编译二进制包，但社区已验证可通过源码编译正常运行。本文以Ubuntu 22.04为例，其他系统操作逻辑一致，仅命令微调。

执行以下命令一键安装Ollama（适用于Linux/macOS）：

# 下载并安装Ollama curl -fsSL https://ollama.com/install.sh | sh # 启动Ollama服务（后台常驻） sudo systemctl enable ollama sudo systemctl start ollama # 验证是否运行正常 ollama list

首次运行会显示空列表，这是正常的——说明Ollama服务已就绪，只等模型加载。

2.2 拉取ChatGLM3-6B-128K模型镜像

Ollama生态中，ChatGLM3-6B-128K由社区维护者EntropyYue提供，镜像名为entropyvue/chatglm3:128k（注意不是官方HuggingFace原名，而是适配Ollama格式的精简优化版）。

执行以下命令拉取模型（约5.2GB，建议在稳定网络环境下操作）：

# 拉取128K长上下文版本（推荐） ollama pull entropyvue/chatglm3:128k # （可选）同时拉取标准版用于对比测试 ollama pull entropyvue/chatglm3:latest

拉取完成后，再次运行ollama list，你会看到类似输出：

NAME TAG SIZE MODIFIED entropyvue/chatglm3 128k 5.2 GB 2 hours ago entropyvue/chatglm3 latest 4.8 GB 3 hours ago

此时模型已就绪，但还不能通过浏览器直接访问——默认Ollama只监听本地127.0.0.1:11434，且无Web界面。我们需要两步：启用Ollama内置API服务，并为其配置反向代理。

3. 启动服务并配置HTTPS反向代理

3.1 启动Ollama API服务

Ollama默认不对外暴露HTTP接口，需手动指定绑定地址。为安全起见，我们不直接绑定0.0.0.0，而是通过Nginx反向代理统一管控。

先创建一个启动脚本，确保服务稳定运行：

# 创建服务配置目录 sudo mkdir -p /etc/ollama # 编写启动配置（/etc/ollama/config.json） sudo tee /etc/ollama/config.json << 'EOF' { "host": "127.0.0.1:11434", "allowed_origins": ["https://ai.yourdomain.com", "http://localhost:3000"] } EOF # 创建systemd服务覆盖文件（避免修改原始unit） sudo mkdir -p /etc/systemd/system/ollama.service.d sudo tee /etc/systemd/system/ollama.service.d/override.conf << 'EOF' [Service] Environment="OLLAMA_HOST=127.0.0.1:11434" ExecStart= ExecStart=/usr/bin/ollama serve Restart=always RestartSec=10 EOF # 重载配置并重启 sudo systemctl daemon-reload sudo systemctl restart ollama

验证API是否可用：

curl http://127.0.0.1:11434/api/tags

返回JSON中应包含刚拉取的entropyvue/chatglm3模型信息，说明API服务已正常启动。

3.2 配置Nginx反向代理（含HTTPS）

假设你已拥有域名ai.yourdomain.com并完成DNS解析指向服务器IP。我们将用Nginx实现：

HTTPS加密访问（自动续期）
路径代理/api/到Ollama后端
静态Web界面托管（后续自建轻量前端）
请求头透传（保留原始IP、Origin等）

安装Nginx与Certbot

sudo apt update && sudo apt install -y nginx certbot python3-certbot-nginx sudo ufw allow 'Nginx Full'

获取SSL证书（使用Let’s Encrypt）

sudo certbot --nginx -d ai.yourdomain.com --non-interactive --agree-tos -m admin@yourdomain.com

成功后，证书将自动存放在/etc/letsencrypt/live/ai.yourdomain.com/。

配置Nginx站点（/etc/nginx/sites-available/ollama）

upstream ollama_backend { server 127.0.0.1:11434; } server { listen 443 ssl http2; server_name ai.yourdomain.com; # SSL配置（certbot自动生成，此处引用） ssl_certificate /etc/letsencrypt/live/ai.yourdomain.com/fullchain.pem; ssl_certificate_key /etc/letsencrypt/live/ai.yourdomain.com/privkey.pem; include /etc/letsencrypt/options-ssl-nginx.conf; ssl_dhparam /etc/letsencrypt/ssl-dhparams.pem; # 安全头 add_header X-Frame-Options "DENY" always; add_header X-XSS-Protection "1; mode=block" always; add_header X-Content-Type-Options "nosniff" always; add_header Referrer-Policy "no-referrer-when-downgrade" always; add_header Content-Security-Policy "default-src 'self' http: https: data: blob: 'unsafe-inline'" always; # API代理 location /api/ { proxy_pass http://ollama_backend/; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; proxy_set_header X-Forwarded-Proto $scheme; proxy_set_header Upgrade $http_upgrade; proxy_set_header Connection "upgrade"; proxy_http_version 1.1; proxy_buffering off; proxy_cache off; proxy_redirect off; } # Web界面根路径（静态文件） location / { root /var/www/ollama-web; try_files $uri $uri/ /index.html; index index.html; } } # HTTP重定向到HTTPS server { listen 80; server_name ai.yourdomain.com; return 301 https://$server_name$request_uri; }

启用配置：

sudo ln -sf /etc/nginx/sites-available/ollama /etc/nginx/sites-enabled/ sudo nginx -t && sudo systemctl reload nginx

此时访问https://ai.yourdomain.com/api/tags应返回与本地相同的模型列表，说明HTTPS代理已生效。

4. 构建轻量Web交互界面

Ollama本身不提供图形界面，但我们可以用极简HTML+JavaScript实现一个可直接提问的前端，无需构建复杂应用。

4.1 创建静态页面目录

sudo mkdir -p /var/www/ollama-web sudo chown -R $USER:$USER /var/www/ollama-web

4.2 编写单页HTML（/var/www/ollama-web/index.html）

<!DOCTYPE html> <html lang="zh-CN"> <head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, initial-scale=1.0"> <title>ChatGLM3-128K · 智能长文本助手</title> <style> body { font-family: "Segoe UI", system-ui, sans-serif; max-width: 800px; margin: 0 auto; padding: 20px; background: #f8f9fa; } .chat-container { background: white; border-radius: 12px; box-shadow: 0 2px 10px rgba(0,0,0,0.05); overflow: hidden; } .messages { height: 400px; overflow-y: auto; padding: 20px; background: #fafafa; } .message { margin-bottom: 16px; } .user { text-align: right; } .bot { text-align: left; } .message-content { display: inline-block; padding: 12px 16px; border-radius: 18px; max-width: 80%; } .user .message-content { background: #007bff; color: white; border-bottom-right-radius: 4px; } .bot .message-content { background: #e9ecef; color: #333; border-bottom-left-radius: 4px; } .input-area { padding: 20px; border-top: 1px solid #eee; } textarea { width: 100%; height: 100px; padding: 12px; border: 1px solid #ddd; border-radius: 8px; font-size: 16px; } button { margin-top: 12px; padding: 10px 24px; background: #007bff; color: white; border: none; border-radius: 6px; font-size: 16px; cursor: pointer; } button:hover { background: #0056b3; } .status { margin-top: 8px; font-size: 14px; color: #6c757d; } </style> </head> <body> <h1> ChatGLM3-6B-128K 长文本智能助手</h1> <p>支持最多128K上下文，适合处理技术文档、法律合同、学术论文等长文本场景。</p> <div class="chat-container"> <div class="messages" id="messages"></div> <div class="input-area"> <textarea id="prompt" placeholder="请输入问题（例如：请总结这篇技术文档的核心观点）..."></textarea> <br> <button onclick="sendPrompt()">发送</button> <div class="status" id="status">就绪</div> </div> </div> <script> const messagesEl = document.getElementById('messages'); const promptEl = document.getElementById('prompt'); const statusEl = document.getElementById('status'); function addMessage(text, isUser = false) { const div = document.createElement('div'); div.className = `message ${isUser ? 'user' : 'bot'}`; div.innerHTML = `<div class="message-content">${text}</div>`; messagesEl.appendChild(div); messagesEl.scrollTop = messagesEl.scrollHeight; } function sendPrompt() { const prompt = promptEl.value.trim(); if (!prompt) return; addMessage(prompt, true); promptEl.value = ''; statusEl.textContent = '思考中...'; fetch('https://ai.yourdomain.com/api/chat', { method: 'POST', headers: { 'Content-Type': 'application/json' }, body: JSON.stringify({ model: 'entropyvue/chatglm3:128k', messages: [{ role: 'user', content: prompt }], stream: false, options: { num_ctx: 131072 } // 显式设置128K上下文 }) }) .then(r => r.json()) .then(data => { addMessage(data.message.content); statusEl.textContent = '就绪'; }) .catch(err => { addMessage(` 请求失败：${err.message}`); statusEl.textContent = '错误，请检查网络'; }); } // 回车发送 promptEl.addEventListener('keydown', e => { if (e.key === 'Enter' && !e.shiftKey) { e.preventDefault(); sendPrompt(); } }); // 初始化欢迎语 addMessage('你好！我是ChatGLM3-6B-128K，专为长文本理解优化。你可以上传文档、粘贴大段文字，或提出复杂问题，我会尽力帮你分析和总结。'); </script> </body> </html>

保存后，访问https://ai.yourdomain.com即可看到简洁可用的交互界面。所有请求均经由HTTPS加密转发至本地Ollama服务，全程数据不出服务器。

5. 实用技巧与常见问题解决

5.1 提升长文本处理效果的3个关键设置

ChatGLM3-6B-128K虽支持128K上下文，但实际效果受参数影响显著。以下是经过实测验证的优化组合：

参数	推荐值	说明
`num_ctx`	`131072`	必须显式设置为131072（即128K），否则默认按8K处理
`num_predict`	`2048`	控制单次生成最大token数，过大会导致响应慢，过小则截断回答
`temperature`	`0.3`	降低随机性，提升长文本推理的稳定性与一致性

在API调用中加入这些选项：

{ "model": "entropyvue/chatglm3:128k", "messages": [...], "options": { "num_ctx": 131072, "num_predict": 2048, "temperature": 0.3 } }

5.2 内存不足时的降级方案

若服务器内存低于32GB，可启用量化版本（社区已提供GGUF格式）：

# 拉取4-bit量化版（约2.8GB，CPU运行流畅） ollama run entropyvue/chatglm3:128k-q4_k_m # 或8-bit版（约3.6GB，平衡精度与速度） ollama run entropyvue/chatglm3:128k-q8_0

量化后响应速度提升约40%，内存占用降至16GB左右，适合中小型部署场景。

5.3 常见问题速查表

Q：访问https://ai.yourdomain.com显示502 Bad Gateway
A：检查Ollama服务是否运行sudo systemctl status ollama；确认Nginx配置中upstream地址正确；查看Nginx错误日志sudo tail -f /var/log/nginx/error.log
Q：提问后长时间无响应，或返回空内容
A：检查API请求中是否遗漏options.num_ctx；确认模型名称拼写为entropyvue/chatglm3:128k（注意不是chatglm3:128k）；尝试用curl命令行直连测试
Q：中文乱码或符号显示异常
A：确保HTML页面声明<meta charset="UTF-8">；Ollama默认使用UTF-8，无需额外配置；检查Nginx是否添加了charset utf-8;（已在前述配置中包含）
Q：如何批量处理PDF/Word文档？
A：Ollama本身不处理文件，需前置使用pypdf、python-docx等库提取文本，再将纯文本送入API。我们提供了一个轻量Python脚本模板（可私信获取），支持自动分块、去噪、合并摘要。