news 2026/6/10 18:47:54

Ollamavllm中部署模型think模式开启关闭

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Ollamavllm中部署模型think模式开启关闭

(一)Ollama中think模式开启关闭

在 Ollama 中部署 Qwen3 模型时,关闭其“思考模式”(即不显示推理过程 ``)有以下几种常用方法。

1. 在提示词中添加指令

最简单的方式是在你的提问末尾加上/no_think指令。这会让模型在当前轮次直接输出最终答案,而不展示思考过程。

你好,请介绍一下自己/no_think

2. 通过命令行参数设置

在启动模型时,可以使用--think=false--hidethinking参数来全局关闭思考模式。

ollama run qwen3:4b --think=false# 或ollama run qwen3:4b --hidethinking

3. 在交互式会话中使用命令

如果你已经通过ollama run进入了交互式对话,可以在会话中输入命令来关闭思考模式。

/set nothink

输入/?可以查看当前会话支持的所有命令。

4. 通过 API 调用控制

在使用 Ollama 的 API 进行聊天请求时,可以在请求体中设置"think": false来关闭思考。

{"model":"qwen3","messages":[{"role":"user","content":"你的问题"}],"think":false}

5. 使用非思考版本的模型

有些 Qwen3 模型变体(如qwen3:235b-a22b-instruct-2507-q4_K_M)本身就不是“思考模型”,直接使用它们就不会有思考过程。

重要说明

  • 指令优先级:在对话中,模型会遵循最新的指令。如果你之前开启了思考,在最新的消息中加上/no_think即可关闭。
  • 模型限制:部分专门为深度推理设计的模型(如qwen3-30b-a3b-thinking-2507)可能无法完全关闭思考模式。
  • 参数差异:某些教程中提到的enable_thinking参数通常是在直接使用模型库(如 Transformers 或 SGLang)时设置,在 Ollama 的上下文中,更推荐使用上述几种方法。

你可以根据自己使用 Ollama 的方式(命令行交互、API 调用等)选择最方便的方法来关闭思考模式。

(二)Vllm中think模型开启关闭

在 vLLM 中部署 Qwen3-32B 模型时,可以通过API 请求参数启动配置来控制其“思考模式”(即是否输出推理过程 ``)的开启与关闭。

一、如何设置思考模式的开启与关闭

1.通过 API 请求参数控制(推荐)

这是最灵活的方式,可以在每次请求时动态控制。关键参数是chat_template_kwargs中的enable_thinking

  • 关闭思考模式:将enable_thinking设为False
  • 开启思考模式:将enable_thinking设为True(默认行为)。
2.通过启动参数控制(全局设置)

在启动 vLLM 服务时,可以通过指定自定义聊天模板来全局禁用思考模式,即使用户在提示中要求思考也会被阻止[。

vllm serve Qwen/Qwen3-32B --chat-template ./qwen3_nonthinking.jinja

注意:此方法需要你准备一个禁用了思考功能的 Jinja 模板文件。

3.软开关:在用户消息中指令

模型本身也支持通过特定的指令来切换模式,这是一种“软开关”。

  • 关闭思考:在用户消息末尾添加/no_think指令[[3]]。
  • 开启思考:在用户消息末尾添加/think指令。

二、调用 vLLM API 的 Python 代码示例

以下示例使用openaiPython 包(需安装openai>=1.0.0)调用本地 vLLM 服务,并演示如何开关思考模式。

fromopenaiimportOpenAI# 1. 初始化客户端,连接到本地 vLLM 服务client=OpenAI(api_key="EMPTY",# vLLM 服务不需要密钥base_url="http://localhost:8000/v1",# vLLM 服务的默认地址)# 2. 准备对话消息messages=[{"role":"user","content":"请解释一下引力波是如何被探测到的。"}]# 3. 发起 API 请求,并控制思考模式try:response=client.chat.completions.create(model="Qwen/Qwen3-32B",# 模型名称需与启动服务时的 `--served-model-name` 一致messages=messages,max_tokens=1024,temperature=0.7,top_p=0.8,# 关键:通过 extra_body 传递 enable_thinking 参数来控制思考模式extra_body={"top_k":20,"chat_template_kwargs":{"enable_thinking":False# 关闭思考模式。改为 True 则开启。}})# 4. 打印模型的回复print("模型回复:")print(response.choices[0].message.content)exceptExceptionase:print(f"请求发生错误:{e}")

三、重要注意事项

  1. 参数位置enable_thinking参数并非 OpenAI 官方 API 标准,因此必须放在extra_body字段中传递。
  2. 与思考内容解析的兼容性:如果你在启动 vLLM 时使用了--reasoning-parser参数来解析思考内容,在 vLLM 0.8.5 版本中,这与enable_thinking=False不兼容。此问题在 vLLM 0.9.0 及更高版本中已得到解决[[5]]。
  3. 模型版本:确保你部署的Qwen3-32B是支持思考能力的版本(通常是InstructThinking后缀的模型)。基础预训练模型可能不具备此功能。

总结:最常用的方法是在 API 调用时,通过extra_body中的chat_template_kwargs: {"enable_thinking": True/False}来精确控制每次请求的思考模式。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 17:10:50

Wan2.2-T2V-A14B为独立电影人提供的低成本制作方案

Wan2.2-T2V-A14B为独立电影人提供的低成本制作方案 你有没有过这样的经历?脑子里有个绝妙的短片构想:雨夜、霓虹、穿风衣的侦探,镜头缓缓推进,水洼倒映出他疲惫的脸……可一想到要租设备、找演员、搭布景,热情瞬间被现…

作者头像 李华
网站建设 2026/6/10 16:05:58

云解决方案如何帮助您构建可扩展、人工智能驱动且具未来适应性的服务系统

在当今快速发展的商业世界中,卓越的客户服务是一项重要的竞争优势。典型的本地支持系统常常面临扩展性有限、维护成本高昂和基础设施僵化,无法适应不断变化的客户期望。云解决方案通过提供无与伦比的适应性和扩展性,带来了一种革命性的方式。…

作者头像 李华
网站建设 2026/6/10 16:05:55

Steamless终极指南:彻底掌握DRM解除技术

Steamless终极指南:彻底掌握DRM解除技术 【免费下载链接】Steamless Steamless is a DRM remover of the SteamStub variants. The goal of Steamless is to make a single solution for unpacking all Steam DRM-packed files. Steamless aims to support as many …

作者头像 李华
网站建设 2026/6/10 14:14:06

InstantID人脸年龄变化终极指南:从零基础到精通

InstantID人脸年龄变化终极指南:从零基础到精通 【免费下载链接】InstantID 项目地址: https://gitcode.com/gh_mirrors/in/InstantID 你是否曾经好奇过自己20年后的模样?或者想看看父母年轻时的风采?传统方法要么需要专业修图技能&a…

作者头像 李华
网站建设 2026/6/10 14:14:53

完整指南:5分钟构建企业级Nginx LDAP认证方案

完整指南:5分钟构建企业级Nginx LDAP认证方案 【免费下载链接】nginx-ldap-auth Example of LDAP authentication using ngx_http_auth_request_module 项目地址: https://gitcode.com/gh_mirrors/ng/nginx-ldap-auth 在当今数字化办公环境中,如何…

作者头像 李华
网站建设 2026/6/10 2:23:05

计划注册公司?注意这些细节!

各位创业老板注意啦!近期计划注册公司?这份超实用指南帮你避开注册坑,高效搞定手续,核心信息一次说清~​一、先选对执照:按需匹配不浪费​ 做电商(小红书、抖音小店、淘宝等)&#x…

作者头像 李华