news 2026/6/13 22:09:19

Ollama 运行模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Ollama 运行模型

Ollama 运行模型指南

1. 基本运行命令

交互式运行

# 运行默认模型(如果已下载)ollama run# 运行指定模型ollama run llama3 ollama run qwen2:7b ollama run mistral# 运行特定版本ollama run llama3:8b ollama run llama3:70b ollama run qwen2:1.5b

非交互式运行(单条命令)

# 直接发送提示词ollama run llama3"解释一下量子力学"# 使用 stdin 输入echo"写一首关于春天的诗"|ollama run llama3# 从文件读取ollama run llama3<prompt.txt

通过 API 调用

# 生成补全curlhttp://localhost:11434/api/generate-d'{ "model": "llama3", "prompt": "为什么天空是蓝色的?", "stream": false }'# 对话补全(推荐)curlhttp://localhost:11434/api/chat-d'{ "model": "llama3", "messages": [ {"role": "user", "content": "你好,请介绍一下自己"} ], "stream": false }'

2. 常用模型推荐

模型大小特点适用场景
llama3:8b4.7GB平衡性能与速度通用对话、代码辅助
llama3:70b40GB高质量回答复杂推理、专业领域
qwen2:7b4.1GB中文优化中文内容生成
qwen2:72b40GB中文最强专业中文任务
mistral:7b4.1GB高效轻量快速响应场景
gemma:2b1.4GB超轻量低配置设备
codellama:7b3.8GB代码专用编程辅助
deepseek-coder:6.7b3.8GB代码生成代码补全、解释

3. 运行参数配置

命令行参数

# 设置温度(随机性)ollama run llama3--temperature0.7# 设置最大 token 数ollama run llama3 --num-predict500# 设置上下文窗口ollama run llama3 --num-context4096# 多参数组合ollama run llama3--temperature0.5--num-predict1000--num-context8192

通过 Modelfile 自定义

# 创建 Modelfile FROM llama3 PARAMETER temperature 0.7 PARAMETER num_predict 1000 PARAMETER num_ctx 4096 SYSTEM You are a helpful coding assistant who speaks in Chinese.
# 创建自定义模型ollama create my-coding-assistant-fModelfile# 运行自定义模型ollama run my-coding-assistant

4. 会话管理

多轮对话

# 启动后自动进入多轮对话模式ollama run llama3# 在对话中:# - 输入问题继续对话# - 输入 /bye 退出# - 输入 /set parameter temperature 0.5 调整参数# - 输入 /show info 查看模型信息# - 输入 /help 查看帮助

保持会话状态

# 使用 --keepalive 参数保持会话ollama run llama3--keepalive30m# 在 API 中设置curlhttp://localhost:11434/api/chat-d'{ "model": "llama3", "messages": [...], "keep_alive": "30m" }'

5. 批量处理

脚本批量调用

#!/bin/bash# batch_process.shPROMPTS=("解释机器学习的基本概念""写一个Python函数计算斐波那契数列""总结这篇文章的主要观点")forpromptin"${PROMPTS[@]}";doecho"处理:$prompt"ollama run llama3"$prompt"--temperature0.5echo"---"done

使用 Python 脚本

importrequestsimportjsondefrun_ollama(prompt,model="llama3",temperature=0.7):response=requests.post("http://localhost:11434/api/chat",json={"model":model,"messages":[{"role":"user","content":prompt}],"temperature":temperature,"stream":False})returnresponse.json()["message"]["content"]# 使用示例result=run_ollama("写一首关于编程的诗")print(result)

6. 性能优化

选择合适模型

  • 低配置设备:选择 1.5B-3B 参数模型
  • 中等配置:选择 7B-8B 参数模型
  • 高配置设备:选择 70B+ 参数模型

GPU 加速

# 检查 GPU 使用情况ollamaps# 强制使用 GPU(如果支持)# Ollama 会自动检测并使用 GPU,无需额外配置

调整并发

# 设置最大并发数exportOLLAMA_NUM_PARALLEL=4# 设置最大内存使用exportOLLAMA_MAX_LOADED_MODELS=2

7. 实用技巧

流式输出

# 终端流式显示ollama run llama3"写一个故事"--stream# API 流式输出curlhttp://localhost:11434/api/chat-d'{ "model": "llama3", "messages": [{"role": "user", "content": "写一个故事"}], "stream": true }'

系统提示词预设

# 创建角色ollama run llama3--system"你是一位经验丰富的Python程序员,请用简洁的代码回答问题"# 在对话中设置ollama run llama3>>>/set system 你是一位专业的翻译,请将以下文本翻译成英文

查看模型信息

# 查看模型详细信息ollama show llama3# 查看模型参数ollama show--modelfilellama3# 查看已下载模型列表ollama list

8. 常见问题

问题:模型运行缓慢

解决方案:

  • 选择更小的模型版本
  • 减少num_predict参数
  • 确保使用 GPU 加速

问题:内存不足

解决方案:

  • 使用量化版本(如llama3:8b-q4_0
  • 减少上下文窗口大小
  • 关闭其他占用内存的应用

问题:回答质量不高

解决方案:

  • 调整temperature参数(0.3-0.7 之间)
  • 使用更具体的提示词
  • 选择更大参数的模型

运行模型前,请确保已下载对应模型(ollama pull <model-name>)。首次运行会自动下载模型文件。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/15 9:56:54

ARM GICv3中断控制器系统寄存器解析与优化

1. ARM GICv3中断控制器系统寄存器深度解析 在ARMv8/v9架构的虚拟化环境中&#xff0c;中断控制器的系统寄存器扮演着至关重要的角色。作为系统开发者&#xff0c;深入理解这些寄存器的运作机制对于构建稳定高效的虚拟化平台至关重要。今天我将结合自己多年在ARM虚拟化开发中的…

作者头像 李华
网站建设 2026/5/15 9:56:28

告别命令行:SignatureTools安卓APK签名工具的图形化革命

告别命令行&#xff1a;SignatureTools安卓APK签名工具的图形化革命 【免费下载链接】SignatureTools &#x1f3a1;使用JavaFx编写的安卓Apk签名&渠道写入工具&#xff0c;方便快速进行v1&v2签名。 项目地址: https://gitcode.com/gh_mirrors/si/SignatureTools …

作者头像 李华
网站建设 2026/5/15 9:55:53

【动手实践】从零到一:双绞线制作与测试全攻略

1. 双绞线制作前的准备工作 第一次动手做网线时&#xff0c;我翻遍了整个工具箱才凑齐所有工具。制作双绞线其实就像做手工课作业&#xff0c;关键是要准备好趁手的"文具"。压线钳绝对是核心装备&#xff0c;它集剪线、剥皮、压接三大功能于一身。建议选择带弹簧复位…

作者头像 李华
网站建设 2026/5/15 9:54:17

PCL点云库配准指南:手把手教你用GICP和CT-ICP搞定动态场景

PCL点云库配准实战&#xff1a;GICP与CT-ICP在动态场景中的高阶应用 激光雷达点云配准是机器人感知领域的核心技术之一&#xff0c;尤其在自动驾驶和移动机器人导航中扮演着关键角色。传统ICP算法虽然简单有效&#xff0c;但在处理动态场景、高速运动或存在大量噪声的环境时往往…

作者头像 李华
网站建设 2026/5/15 9:53:42

AMD Ryzen处理器底层调试指南:SMUDebugTool深度解析与应用实战

AMD Ryzen处理器底层调试指南&#xff1a;SMUDebugTool深度解析与应用实战 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: ht…

作者头像 李华