保姆级教程：用Ollama运行QwQ-32B并调用function call-深圳市維司達科技有限公司

保姆级教程：用Ollama运行QwQ-32B并调用function call

你是不是也遇到过这样的问题：手头有个超强推理模型QwQ-32B，但不知道怎么在本地快速跑起来？更别说让它真正“动起来”——自动调用外部工具、执行函数、处理真实任务了。网上搜了一圈，要么是零散的命令片段，要么是需要改一堆配置的复杂流程，新手根本无从下手。

别急，这篇教程就是为你写的。不讲虚的，不堆术语，从下载文件到第一次成功触发function call，每一步都配清晰说明、可复制命令和关键注意事项。你不需要懂模型架构，也不用会写Python，只要会点鼠标、敲几行命令，15分钟内就能让QwQ-32B在你电脑上真正“思考+行动”。

1. 先搞清楚：QwQ-32B到底强在哪？

在动手之前，咱们得知道为什么值得花这15分钟——它可不是又一个普通大模型。

QwQ-32B是通义千问团队推出的专注推理能力的中型语言模型。它和常见的“指令微调型”模型有本质区别：它被专门训练来“想清楚再回答”，而不是直接给出答案。这意味着：

遇到数学题、逻辑谜题、多步编程问题时，它会先生成清晰的推理链（think step by step），再输出最终结果；
它原生支持function call机制——你可以告诉它“需要查天气”“需要搜索最新论文”“需要计算两个数的差”，它能自动识别需求、生成标准JSON格式的函数调用请求，把任务交给外部工具执行；
325亿参数规模，性能对标DeepSeek-R1、o1-mini等前沿推理模型，但部署门槛低得多；
最长支持131072个token上下文，处理超长文档、代码库、技术报告毫无压力。

简单说：它不只是“会说话”，而是“会思考、懂分工、能干活”的AI助手。而function call，就是它把“想”变成“做”的关键开关。

2. 准备工作：三件套缺一不可

要让QwQ-32B跑起来并启用function call，你需要准备好三样东西。别担心，每一样都比想象中简单。

2.1 确认已安装Ollama（v0.4.0或更高版本）

Ollama是你本地运行大模型的“发动机”。请先检查是否已安装并更新到最新版：

# 检查版本 ollama --version # 如果未安装，访问 https://ollama.com/download 下载对应系统安装包 # 如果版本低于0.4.0，请卸载后重新安装最新版（function call支持从0.4.0起正式稳定）

重要提醒：旧版本Ollama（如0.3.x）无法正确解析function call模板，强行使用会导致报错或功能失效。务必确认版本号以0.4.开头。

2.2 下载QwQ-32B的GGUF量化模型文件

QwQ-32B官方发布的是FP16精度模型，体积巨大（约65GB），不适合本地运行。我们需要的是社区优化的GGUF量化版本——它把模型压缩到15~20GB左右，同时保持95%以上的推理质量。

前往Hugging Face模型库，下载推荐的IQ3_M量化版本（平衡速度与精度）：

https://huggingface.co/bartowski/Qwen_QwQ-32B-GGUF

在页面中找到文件名含Qwen_QwQ-32B-IQ3_M.gguf的文件，点击下载。
下载完成后，记住这个文件的完整路径，比如：
/Users/yourname/Downloads/Qwen_QwQ-32B-IQ3_M.gguf
（Windows用户路径类似：C:\Users\yourname\Downloads\Qwen_QwQ-32B-IQ3_M.gguf）

2.3 创建Modelfile：定义模型行为的核心配置

Ollama不是直接加载GGUF文件就完事的——它需要一个叫Modelfile的配置文件，来告诉模型：“你该怎么理解用户输入？怎么生成回复？特别是，怎么调用函数？”

新建一个纯文本文件，命名为Modelfile（注意没有扩展名），用任意文本编辑器打开，粘贴以下内容：

FROM /path/to/your/Qwen_QwQ-32B-IQ3_M.gguf # 启用QwQ专用的ChatML对话模板，并集成function call支持 TEMPLATE """{{- if or .System .Tools }}<|im_start|>system {{- if .System }} {{ .System }} {{- end }} {{- if .Tools }} # Tools You may call one or more functions to assist with the user query. You are provided with function signatures within <tools></tools> XML tags: <tools> {{- range .Tools }} {"type": "function", "function": {{ .Function }}} {{- end }} </tools> For each function call, return a json object with function name and arguments within <tool_call><tool_call> XML tags: <tool_call> {"name": <function-name>, "arguments": <args-json-object>} </tool_call> {{- end }}<|im_end|> {{ end }} {{- range $i, $_ := .Messages }} {{- $last := eq (len (slice $.Messages $i)) 1 -}} {{- if eq .Role "user" }}<|im_start|>user {{ .Content }}<|im_end|> {{ else if eq .Role "assistant" }}<|im_start|>assistant {{ if .Content }}{{ .Content }} {{- else if .ToolCalls }}<tool_call> {{ range .ToolCalls }}{"name": "{{ .Function.Name }}", "arguments": {{ .Function.Arguments }}} {{ end }}</tool_call> {{- end }}{{ if not $last }}<|im_end|> {{ end }} {{- else if eq .Role "tool" }}<|im_start|>user <tool_call> {{ .Content }} </tool_call><|im_end|> {{ end }} {{- if and (ne .Role "assistant") $last }}<|im_start|>assistant {{ end }} {{- end }} """

关键操作：把第一行FROM后面的路径，替换成你刚才下载的GGUF文件的绝对路径。
例如Mac用户改为：
FROM /Users/yourname/Downloads/Qwen_QwQ-32B-IQ3_M.gguf
Windows用户改为：
FROM C:\Users\yourname\Downloads\Qwen_QwQ-32B-IQ3_M.gguf

保存文件。这个Modelfile就是你的QwQ-32B“启动说明书”，它做了三件事：

指定模型文件位置；
告诉Ollama使用QwQ专用的<|im_start|>对话格式；
完整嵌入function call的JSON结构规范，确保模型输出严格符合调用要求。

3. 构建与运行：两行命令搞定部署

现在所有材料齐备，进入最简单的环节——构建模型镜像并启动服务。

3.1 构建自定义模型

打开终端（Mac/Linux）或命令提示符（Windows），进入存放Modelfile的目录，执行：

ollama create qwq32b-func -f Modelfile

这条命令的意思是：“根据当前目录下的Modelfile，创建一个名为qwq32b-func的新模型”。
⏳ 过程中你会看到Ollama读取GGUF文件、加载参数、验证配置……通常耗时2~5分钟（取决于硬盘速度）。
成功后，终端会显示：Successfully created model 'qwq32b-func'。

3.2 验证模型是否就绪

运行以下命令，查看本地所有可用模型：

ollama list

你应该在列表中看到这一行：
qwq32b-func latest 18.2 GB ...

如果看到了，恭喜！你的QwQ-32B已部署完成，且自带function call能力。

3.3 第一次交互：试试看它会不会“调用函数”

现在，我们用Ollama最简单的聊天模式，测试function call是否生效：

ollama run qwq32b-func

进入交互界面后，不要输入普通问题，而是直接发送一个明确需要调用工具的指令：

请帮我查询北京今天下午3点的天气情况。

按下回车。
正常情况下，QwQ-32B不会直接回答“北京天气晴”，而是输出一段包含<tool_call>标签的JSON：

<tool_call> {"name": "get_weather", "arguments": {"location": "北京", "time": "今天下午3点"}} </tool_call>

这就是function call的标志性输出！它表示模型已准确识别任务需求，并按规范生成了可被程序解析的调用请求。
（注：此时Ollama本身不执行该函数，它只负责生成请求。实际执行需配合LangChain、LlamaIndex等框架，下文会说明。）

4. 实战演示：用Python调用QwQ-32B的function call

光看到JSON还不够——我们要让它真正“干活”。下面用最简Python脚本，演示如何把QwQ-32B的function call请求，对接到真实的天气API。

4.1 安装必要依赖

pip install ollama requests

4.2 编写调用脚本（copy-paste即可运行）

新建文件qwq_call_demo.py，粘贴以下代码：

import ollama import json import re import requests # 定义一个模拟的天气查询函数（实际项目中替换为真实API） def get_weather(location: str, time: str): # 这里应调用真实天气API，此处简化为返回固定字符串 return f"{location} {time} 天气：晴，气温22°C，空气质量优。" # 用户提问 prompt = "请帮我查询上海明天上午10点的天气情况。" # 向QwQ-32B发送请求，要求其生成function call response = ollama.chat( model='qwq32b-func', messages=[{'role': 'user', 'content': prompt}], # 关键：启用工具定义（即使这里没传真实工具，模型也会按规范输出JSON） tools=[{ 'type': 'function', 'function': { 'name': 'get_weather', 'description': '查询指定地点和时间的天气信息', 'parameters': { 'type': 'object', 'properties': { 'location': {'type': 'string', 'description': '城市名称'}, 'time': {'type': 'string', 'description': '具体时间'} }, 'required': ['location', 'time'] } } }] ) # 解析模型返回的content content = response['message']['content'] # 使用正则提取<tool_call>标签内的JSON字符串 match = re.search(r'<tool_call>\s*({.*?})\s*<tool_call>', content, re.DOTALL) if match: try: func_call = json.loads(match.group(1)) print(f" 模型已生成函数调用：{func_call}") # 执行函数（调用本地模拟函数） result = get_weather(**func_call['arguments']) print(f" 工具执行结果：{result}") # 将结果反馈给模型，让它生成最终回答 final_response = ollama.chat( model='qwq32b-func', messages=[ {'role': 'user', 'content': prompt}, {'role': 'assistant', 'tool_calls': [{'function': func_call}]}, {'role': 'tool', 'content': result} ] ) print(f" 最终回答：{final_response['message']['content']}") except json.JSONDecodeError as e: print(f"❌ JSON解析失败：{e}") else: print("❌ 未检测到function call输出，请检查模型配置或提示词。")

4.3 运行效果

执行python qwq_call_demo.py，你将看到：

模型已生成函数调用：{'name': 'get_weather', 'arguments': {'location': '上海', 'time': '明天上午10点'}} 工具执行结果：上海 明天上午10点 天气：晴，气温22°C，空气质量优。 最终回答：根据查询，上海明天上午10点的天气是晴天，气温22摄氏度，空气质量优。

整个流程清晰可见：
用户提问 → QwQ-32B识别需求并生成标准JSON → Python脚本解析并执行 → 将结果喂回模型 → 模型整合信息生成自然语言回答。
这才是function call的完整闭环。

5. 常见问题与避坑指南

刚上手时容易卡在几个细节上。以下是高频问题的真实解决方案，帮你省下至少2小时调试时间。

5.1 问题：`ollama create`报错 “failed to load model” 或 “invalid GGUF file”

原因：路径错误或GGUF文件损坏。
解决：

再次确认Modelfile中FROM后的路径是绝对路径，且文件确实存在；
用ls -lh /path/to/file.gguf（Mac/Linux）或dir C:\path\to\file.gguf（Windows）验证文件可访问；
重新下载GGUF文件（Hugging Face有时因网络中断导致文件不完整）。

5.2 问题：`ollama run`后输入问题，模型直接回答而非输出JSON

原因：未在请求中声明tools，或提示词不够明确。
解决：

在ollama run交互模式中，必须使用带工具定义的调用方式（如上文Python脚本所示）；
或在提问时加入强引导语：“请严格按JSON格式调用函数，不要输出其他任何文字。”
确保Ollama版本≥0.4.0（再次强调！）。

5.3 问题：function call JSON中参数缺失或格式错误（如`arguments`为空）

原因：模型对工具描述理解不足，或参数定义过于模糊。
解决：

在tools定义中，为每个参数添加清晰description（如示例中所示）；
避免使用“其他信息”“补充内容”等模糊字段，全部定义为必填项（required数组列出）；
初期可先用1~2个简单工具测试，验证流程后再扩展。

5.4 问题：长上下文（>8192 tokens）时响应变慢或出错

原因：QwQ-32B默认未启用YaRN插值，长文本推理效率下降。
解决：

在Modelfile的FROM行后添加参数：

PARAMETER num_ctx 131072 PARAMETER rope_freq_base 1000000

重新ollama create构建模型。
（注：此为进阶配置，新手首次运行可暂不设置，不影响基础function call功能。）

6. 总结：你已经掌握了QwQ-32B的“思考+行动”能力

回顾一下，你刚刚完成了什么：

从零开始，用Ollama本地部署了QwQ-32B这一顶级推理模型；
通过自定义Modelfile，精准启用了原生function call支持；
用两行命令构建并验证了可运行的模型镜像；
用一段简洁Python脚本，实现了“模型生成请求→程序执行工具→模型整合回答”的完整智能体闭环；
掌握了5个高频问题的即时解决方案，避免踩坑。

QwQ-32B的价值，从来不止于“生成漂亮文字”。它的核心竞争力，在于将复杂推理与真实世界交互无缝连接。今天你调用的可能是天气API，明天就可以是数据库查询、代码执行、文档摘要、甚至控制智能家居——只要定义好工具接口，QwQ-32B就是你最可靠的AI协作者。

下一步，你可以：

尝试接入更多工具（如web_search、calculator、code_interpreter）；
将脚本封装成Web服务（用FastAPI），让团队共享；
结合RAG技术，为模型注入私有知识库，打造专属智能助理。

真正的AI生产力，就从这一个Modelfile开始。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

保姆级教程：用Ollama运行QwQ-32B并调用function call