Prompt tuning效果测试：冻结主干网络仅训练提示向量-深圳市維司達科技有限公司

Prompt Tuning 效果实测：冻结主干网络，仅训练提示向量的可行性分析

在当前大模型动辄数百亿、数千亿参数的时代，全量微调（Full Fine-tuning）带来的显存压力与训练成本已成为许多团队难以承受的负担。尤其对于高校实验室、初创公司或边缘部署场景而言，如何在不牺牲性能的前提下实现高效适配，成了一个现实而紧迫的问题。

就在此时，Prompt Tuning作为一种极具潜力的参数高效微调方法，悄然走入主流视野。它不修改预训练模型的任何权重，而是通过引入一组可学习的“软提示”向量来引导模型行为——听起来像是一种理想化的学术构想？但当我们看到VibeThinker-1.5B-APP这样仅用 15 亿参数就在数学和编程任务上反超数十倍规模模型的表现时，不得不承认：这不仅是理论可行，更是工程落地的典范。

从“调整个别层”到“只学几个向量”

传统微调需要更新全部参数，Adapter 在中间插入小型模块，LoRA 则低秩分解权重变化。相比之下，Prompt Tuning 更进一步：完全冻结主干网络，仅优化拼接在输入前的一段连续嵌入向量。

这些向量被称为“软提示”（Soft Prompts），它们不像传统 prompt 那样是固定的 token 序列（如 “Let’s think step by step”），而是作为神经网络中的可训练参数存在。训练过程中，梯度仅回传至这部分向量，主干模型的所有参数保持不变。

这意味着什么？

显存占用极低：无需存储大量梯度和优化器状态；
推理无延迟增加：部署时只需加载额外几十个向量；
多任务切换灵活：不同任务对应不同的提示缓存，热插拔即可；
知识保留完整：避免灾难性遗忘，通用能力不受干扰。

以 VibeThinker-1.5B-APP 为例，若设置 20 个提示 token，每个维度为 2048，则总共仅需训练约 4 万个参数——占总参数量的0.0027%。这种级别的参数效率，使得单卡消费级 GPU（如 RTX 3090/4090）也能完成训练与推理。

import torch import torch.nn as nn from transformers import AutoTokenizer, AutoModelForCausalLM class PromptTuningModel(nn.Module): def __init__(self, model_name, num_prompt_tokens=20, tokenizer=None): super().__init__() self.model = AutoModelForCausalLM.from_pretrained(model_name) self.tokenizer = tokenizer or AutoTokenizer.from_pretrained(model_name) hidden_size = self.model.config.hidden_size self.num_prompt_tokens = num_prompt_tokens # 初始化可学习的提示向量 self.prompt_embeddings = nn.Parameter( torch.randn(num_prompt_tokens, hidden_size) * 0.02 ) # 冻结整个主干模型 for param in self.model.parameters(): param.requires_grad = False def forward(self, input_ids, attention_mask=None): batch_size = input_ids.shape[0] prefix = self.prompt_embeddings.unsqueeze(0).expand(batch_size, -1, -1) input_embeds = self.model.get_input_embeddings()(input_ids) inputs_embeds = torch.cat([prefix, input_embeds], dim=1) if attention_mask is not None: prefix_mask = torch.ones(batch_size, self.num_prompt_tokens).to(attention_mask.device) new_attention_mask = torch.cat([prefix_mask, attention_mask], dim=1) else: new_attention_mask = None outputs = self.model( inputs_embeds=inputs_embeds, attention_mask=new_attention_mask, labels=None ) return outputs

这段代码展示了 Prompt Tuning 的核心实现逻辑。关键点在于：

使用nn.Parameter将提示向量纳入计算图；
调用get_input_embeddings()获取词嵌入层输出并与软提示拼接；
手动扩展 attention mask 以覆盖新增部分；
全程冻结主干模型，确保只有prompt_embeddings可被优化。

该框架可在本地运行，适合用于数学解题、算法生成等高精度推理任务的快速实验。

小模型为何能战胜大模型？看 VibeThinker 的设计哲学

VibeThinker-1.5B-APP 并非追求通用对话能力的“全能选手”，它的目标非常明确：在数学推理与算法编程领域做到极致专注。正是这种“专精特新”的定位，让它能在资源有限的情况下打出惊人表现。

其成功背后有三大支柱：

1. 数据质量 > 数据数量

相比盲目爬取海量网页文本，VibeThinker 的训练数据聚焦于 AIME、HMMT 等国际数学竞赛题，以及 LeetCode、Codeforces 上的高质量编程题目。这类数据具有以下优势：

结构清晰：问题定义明确，答案唯一或可验证；
推理链条长：需要多步推导、归纳假设、边界判断；
错误反馈强：自动评分机制便于模型自我纠正。

换句话说，每一条样本的信息密度远高于普通语料。这就像是让一名学生反复刷高考压轴题，而不是泛读百科全书——单位时间内的提升效率不可同日而语。

2. 提示即配置：任务边界由输入决定

该模型采用“系统提示 + 用户问题”的双层输入结构。例如：

系统提示：You are an expert in competitive programming. Think step by step and write clean code.
用户输入：Given an array of integers, find the longest increasing subsequence.

在这种模式下，系统提示实际上起到了“角色设定”和“思维模板”的作用。模型会自动进入相应的推理范式——如果是数学题，就启动 Chain-of-Thought；如果是编码题，就准备输出带注释的函数体。

更进一步地，如果结合 Prompt Tuning，我们可以为“动态规划类题目”、“图论问题”等子任务分别训练专属的软提示向量，并在推理时根据问题类型动态加载。这种方式实现了真正的“轻量化适配”。

3. 英文优先策略降低语义歧义

有趣的是，尽管中文用户众多，但 VibeThinker 在英文输入下的表现明显优于中文。原因并不复杂：

训练语料以英文为主，模型对英语语法和术语更熟悉；
中文表达常存在省略主语、逻辑跳跃等问题，容易导致推理链断裂；
编程术语（如 DP、DFS、Greedy）本身多为英文缩写，混用时易造成混淆。

因此，在实际使用中强烈建议全程使用英文提问，哪怕只是简单翻译也能显著提升准确率。

实测表现：小模型也能“越级挑战”

官方公布的评测结果显示，VibeThinker-1.5B-APP 在多个权威基准上不仅超越同体量模型，甚至击败了参数量数百倍的大模型。

数学推理能力对比（AIME/HMMT）

基准测试	VibeThinker-1.5B	DeepSeek R1（超400倍参数）	结果
AIME24	80.3	79.8	✅ 超越
AIME25	74.4	70.0	✅ 超越
HMMT25	50.4	41.7	✅ 超越

这些数字令人震惊——一个 1.5B 模型竟能在高难度数学竞赛题上持续压制更大模型。这说明：模型大小并非决定性因素，训练策略与任务对齐才是关键。

代码生成能力（LiveCodeBench）

测试集	VibeThinker-1.5B	Magistral Medium	对比结果
LiveCodeBench v5	55.9	—	—
LiveCodeBench v6	51.1	50.3	✅ 略胜

在最新版本的 LiveCodeBench v6 上，VibeThinker 仍保持微弱领先。特别是在处理边界条件、时间复杂度优化等方面表现出更强的严谨性。

实际部署中的架构与最佳实践

典型的 VibeThinker 应用系统通常采用如下架构：

+------------------+ +----------------------------+ | 用户输入界面 | ----> | Jupyter Notebook / Web UI | +------------------+ +-------------+--------------+ | v +------------------------+ | 系统提示词输入框 | | (例："你是一个编程助手") | +-----------+------------+ | v +----------------------------------+ | VibeThinker-1.5B-APP 推理引擎 | | - 主干网络冻结 | | - 输入拼接软提示/硬提示 | | - 输出结构化解题过程 | +----------------------------------+ | v +---------------------+ | 最终答案与推理步骤输出 | +---------------------+

这套系统的精髓在于“提示即配置”的设计理念。任务类型、角色定位、输出格式等全部通过前端输入控制，后端无需任何改动，极大降低了运维复杂度。

部署流程简述：

拉取 Docker 镜像，包含模型权重与推理环境；
启动 Jupyter 服务，执行1键推理.sh脚本初始化模型；
在 Web UI 中设置系统提示（必须！否则无法激活正确模式）；
输入具体问题（推荐英文）；
获取分步推理结果与最终解答；
（可选）针对特定任务训练并保存专用软提示向量，供后续复用。

关键注意事项：

项目	建议说明
输入语言	强烈建议使用英文，可减少歧义、提升推理稳定性。
系统提示必填	必须明确指定角色，如`"You are a math problem solver"`，否则模型可能无法进入专业模式。
任务范围限定	不适用于闲聊、创作、情感分析等开放任务，专注解决结构化问题。
软提示长度	初始建议设为 10–50 个 token，过长可能导致注意力分散或过拟合。
硬件要求	至少 24GB 显存（A10G、RTX 3090），量化版可在 16GB 运行。
评估标准	推荐使用 AIME-Hard、MBPP+、LiveCodeBench 等具备严格评分机制的基准。