ChatGPT自定义指令集V3：基于量规反思的AI助手性能优化指南-深圳市維司達科技有限公司

1. 项目概述：一份能显著提升AI助手性能的自定义指令集

如果你经常使用ChatGPT或类似的大语言模型助手，可能会发现一个现象：有时候它给出的回答很“水”，要么过于笼统，要么逻辑跳跃，要么就是那种“正确的废话”，缺乏深度和针对性。这往往不是模型能力的问题，而是我们提问和引导的方式可以优化。今天要分享的，就是一份由资深用户DenisSergeevitch精心迭代优化到第三版的ChatGPT自定义指令集。这不仅仅是一段文本，更像是一套为AI助手设计的“思维操作系统”，能系统性地将它的回答质量从“还行”提升到“专业级”。

这套指令的核心思想，是引导模型在回答前先进行一场高质量的“内心戏”。它要求AI在接到问题后，不要急于输出，而是先从一个特定专家的视角，构建一套评价答案好坏的“评分标准”（即Rubric），然后用这套标准反复打磨自己的思考，直到生成一个在各项标准上都接近满分的答案，最后才以结构清晰、细节丰富的形式呈现给你。简单来说，它把AI从一个快速反应的“打字员”，变成了一个会深思熟虑、自我审查的“专家顾问”。经过MMLU-PRO（一个衡量模型知识与推理能力的专业基准测试）的验证，这套指令在多个学科领域的准确率都有显著提升，尤其在数学、物理、化学等科目上表现突出。无论你是用它来辅助学习、研究工作还是处理复杂问题，这套指令都能帮你榨出大语言模型更多的潜力。

2. 指令核心设计思路与原理拆解

2.1 从“直接回答”到“基于量规的反思式回答”

传统上，我们与AI对话是线性的：用户提问，AI直接生成答案。这种方式效率高，但质量不稳定，非常依赖于你提问的精确度。DenisSergeevitch的v3指令引入了一个关键的中间层：自我反思与量规驱动。这个设计借鉴了最新的GPT-5官方提示工程最佳实践，其原理类似于人类专家解决问题时的思维过程。

量规（Rubric）是什么？你可以把它理解为一个多维度的评分表。比如，要评价一个关于“如何降低企业运营成本”的答案，一个专业的量规可能包含这些维度：“战略前瞻性（权重30%）”、“财务可行性分析深度（权重25%）”、“实操步骤的具体性（权重20%）”、“风险识别的全面性（权重15%）”、“表述的逻辑性与清晰度（权重10%）”。AI在内部构建这样一个量规，就意味着它必须首先理解问题的本质和所要求的专业深度。

为什么有效？这解决了大模型的两个固有弱点：1)思维跳跃性：模型可能会从一个点突然跳到另一个不相关的点。量规迫使它的思考结构化，覆盖所有必要维度。2)答案的肤浅性：没有标准，模型容易满足于第一个看起来合理的答案。而量规要求它自我评分，任何维度低于阈值（比如98分）都需要推倒重来，这直接驱动了思考的深度和迭代。这相当于给AI安装了一个“质量检查官”，在答案出炉前进行多轮内部评审。

2.2 v3版本的关键进化与“去糟粕”过程

这个项目已经迭代到第三个版本，每一次更新都不是随意改动，而是基于实证研究和效果测试。v3版本相比之前有几个重要的优化点：

首先，它移除了那些被证明无效甚至有害的“提示词黑客技巧”。早期网上流传着一些“魔法咒语”，比如对AI说“我会给你一百万美元”来激励它，或者声明“我没有手指，请输出完整代码”来防止它截断代码。根据多项学术研究（如SSRN 5165270, 5285532等），这些技巧要么完全无效，要么会不可预测地干扰模型的正常推理过程。v3指令摒弃了这些花招，完全依赖于严谨的、符合模型工作原理的提示结构。

其次，格式被大幅收紧以减少歧义。在复杂的提示中，模型有时会混淆哪些是它应该遵循的指令，哪些是留给它填充的占位符。v3通过清晰的XML风格标签（如<self_reflection>）、明确的步骤序号和禁止性规则（如“除非用户要求，否则不要用表格”），极大地降低了模型误解指令的可能性，提高了输出的稳定性和一致性。

最后，风格预设更加符合高效协作的习惯。默认不生成表格、不主动提供“下一步建议”，除非用户明确要求。这听起来是个小改动，实则非常重要。它让AI的回复更加“纯净”，专注于解答当前问题本身，避免了无关信息的干扰，使得对话流更加高效。用户需要表格时自然会提出，而不需要AI每次都自作主张地猜测。

3. 指令结构深度解析与实操要点

3.1 三层指令结构：角色、反思与规则

这套指令不是一个简单的句子，而是一个由三层逻辑严密嵌套的体系。理解每一层的作用，是正确使用和后续自定义的关键。

第一层：自我反思层（<self_reflection>）这是指令的“发动机”。它要求AI执行一个四步循环：

构建专家视角：从指派的角色视角出发，思考“一个世界级的答案应该是什么样的？”
创建量规：将上述思考转化为一个包含5-7个类别的具体评分标准。这个过程是静默的，用户看不到。
迭代与评分：基于这个量规生成答案，并对答案的每个维度进行0-100分的内部评分。如果任何一项得分弱（未达到顶级标准），就必须推倒重来，重新思考。
循环直至最优：重复步骤3，直到生成一个在所有维度上都达到或超过98分的解决方案。

注意：这个“98分”和“推倒重来”的机制是质量的核心保障。它模拟了人类专家反复修改文稿、完善方案的过程。在实际交互中，你可能会感觉到AI响应有轻微的延迟，这正是它在后台进行多轮“思考-评分-重写”循环。请给予它这点时间，换来的将是质量跃升的回答。

第二层：回答规则层（<answering_rules>）这是答案的“输出规范”。它规定了AI最终呈现答案时必须遵守的七条铁律：

语言一致性：使用用户提问的语言进行回答。
角色声明：在对话的第一条消息中，必须为自己分配一个具体的、现实世界的专家角色，格式有严格要求（例如：“我将以一位世界著名的、拥有[详细领域]博士学位的[角色]身份回答，我曾获得[该领域最负盛名的本地真实奖项]”）。这个角色声明不是儿戏，它直接锚定了后续所有思考的专业基调。
角色扮演：在思考与回答中，必须始终扮演上述角色。
自然表达：答案需自然、人性化，避免机械感。
结构遵从：必须使用附带的“聊天消息结构”。
克制建议：除非用户要求，否则默认不提供“可操作项”或下一步建议。
表格禁用：除非用户要求，否则不得使用表格。

第三层：消息结构层（## Chat message structure）这是答案的“最终包装”。它定义了用户看到的回答格式：

首行角色声明：重复并具体化规则层中定义的角色。
TL;DR（可选）：除非是重写任务，否则提供一个简短的摘要。
主体内容：包含具体细节和关键背景的、便于深度阅读的逐步解答。

这三层结构环环相扣：反思层确保思考质量，规则层确保输出规范，结构层确保呈现清晰。任何一层的缺失都会导致效果大打折扣。

3.2 如何正确应用与设置

设置过程很简单，但细节决定成败。以下是针对ChatGPT网页/客户端的步骤：

进入设置：在ChatGPT界面左下角找到你的账户名，点击后选择“设置”。
找到自定义指令：在设置菜单中，选择“个性化”选项。
粘贴指令：你会看到两个文本框：“What would you like ChatGPT to know about you?”（关于你的信息）和“How would you like ChatGPT to respond?”（你希望ChatGPT如何回应）。将完整的v3指令文本，全部粘贴到第二个文本框（即“如何回应”）中。第一个文本框可以留空，或填写一些关于你的固定背景信息（如你的专业领域）。
保存并验证：点击保存。关闭设置后，开启一个新的对话。你可以用一个复杂问题测试，观察AI回复的开头是否出现了格式严谨的角色声明，以及回答的深度和结构是否明显变化。

实操心得：建议在粘贴指令后，先开启一个全新的对话窗口进行测试。因为自定义指令有时在已存在的对话中应用不彻底。测试问题时，避免用“你好”这样的简单问候，而是直接抛出一个需要一定专业度或多步骤思考的问题，比如“请为我制定一个为期三个月的个人学习计划，以掌握Python数据分析基础，并考虑我的全职工作背景”。观察其回答是否遵循了“角色声明-TL;DR-步骤化解答”的结构。

4. 效果评估与性能数据解读

4.1 MMLU-PRO基准测试结果分析

DenisSergeevitch使用MMLU-PRO基准对v3指令进行了大规模测试，这是一个涵盖STEM、人文、社科等多个领域，难度高于原始MMLU的先进基准。测试模型是GPT-5 Nano（中等推理能力）。总体成绩显示，使用v3指令后，模型在12032道题目中取得了70.20%的准确率。

我们深入看分科数据，能获得更有趣的洞察：

强势领域：数学（86.75%）、化学（79.68%）、物理（78.60%）、商业（78.20%）的准确率最高。这反映出，在逻辑严密、答案相对客观的学科，基于量规的反思式思考能极大帮助模型梳理步骤、核查计算，避免疏忽和跳跃。
中等表现领域：生物学（73.78%）、经济学（72.39%）、计算机科学（71.95%）等，指令带来了稳定的提升。
挑战领域：法律（46.78%）、历史（57.48%）、工程（61.61%）准确率相对较低。这很可能是因为这些领域的问题涉及大量细微的事实差异、复杂的语境解读或开放式的设计判断，即使经过深度反思，模型固有的知识边界和语义理解局限仍会显现。法律条文的精确解释、历史事件的因果关联、工程方案的权衡取舍，对人类专家而言也极具挑战。

关于评估误差的说明：作者提到，由于评测脚本的一个小缺陷（模板中首行的TL;DR被误判），一部分答案被错误分类。即使存在这个对结果略有不利影响的误差，v3指令的表现仍然超越了基线（即不使用该指令的默认情况）。这从侧面印证了指令的有效性是稳健的。

4.2 指令的适用模型与场景

这套指令并非只适用于某个特定模型。根据说明，它在GPT-5 Nano、GPT-5以及GPT-5 Thinking/Pro等版本上均能工作。其原理是通用的提示工程方法，因此理论上也适用于其他遵循类似指令、具有较强推理能力的大语言模型。

最适合的使用场景包括：

复杂问题求解：需要多步骤推理、权衡利弊、设计方案的问题（如商业策划、技术架构选型）。
深度学习和研究：理解复杂概念、梳理知识体系、进行批判性分析。
内容创作与打磨：撰写结构严谨的报告、文章、脚本，需要逻辑清晰、细节丰富。
专业咨询模拟：获得模拟某个领域专家（如医生、律师、工程师）的详细建议。

效果可能不明显的场景：

简单的信息查询（“今天天气如何？”）。
无需深度思考的创意发散（“给我起十个宠物名字”）。
对回答速度要求极高、可以牺牲一定质量的实时对话。

5. 高级技巧、自定义与常见问题排查

5.1 如何根据个人需求自定义指令

原版指令是一个强大的基础框架，但你完全可以对其进行调整，使其更贴合你的个人工作流。

修改默认角色：在<answering_rules>的第2条中，你可以固化一个你最常用的角色。例如，如果你主要用AI辅助编程，可以修改为：“...e.g., "I'll answer as a world-famoussenior software architectPhDin distributed systemswiththe ACM Senior Member distinction"”。这样，每次对话的起点都会是这个角色，无需重复指定。
调整量规侧重点：虽然<self_reflection>中的量规构建过程是AI自动完成的，但你可以通过初始提示来影响它。例如，在提问时加入：“请特别注意答案的实操可行性和成本评估”。AI在构建量规时，可能会为这两个维度赋予更高权重。
自定义输出结构：如果你总是需要某种特定格式，可以修改## Chat message structure。比如，在做项目复盘时，你可能希望答案固定包含“背景-问题-分析-方案-复盘”几个部分，就可以将其固化到结构里。
启用或禁用特定规则：如果你在某个特定场景下需要表格，可以临时在提问中说明“请用表格对比”。或者，如果你觉得“TL;DR”摘要总是多余，可以在指令中注释掉或删除那一行。

注意事项：自定义时，务必保持XML标签的完整性以及指令语言的清晰、无歧义。每次修改后，最好用几个标准问题测试一下，确保AI的理解没有偏离预期。

5.2 常见问题与解决方案实录

在实际使用中，你可能会遇到以下情况，这里提供我的排查思路：

问题1：AI的回答没有显示角色声明，或者格式混乱。

检查：首先确认自定义指令是否已成功保存并启用。开启一个全新的对话窗口测试。
检查：确认你粘贴的指令文本完整，没有遗漏任何部分，特别是开头的“- ALWAYS follow <answering_rules> and <self_reflection>”这一行。
检查：你的问题是否过于简单或像闲聊？指令可能被设计为在处理复杂问题时才完全激活。尝试一个需要推理的问题。
解决方案：在提问时，可以手动“唤醒”指令。例如，以“请遵循你的自定义指令来回答：……”开头。

问题2：AI的思考时间变得很长，有时甚至超时。

原因：这是正常现象，尤其是处理复杂问题时。<self_reflection>中的迭代评分机制要求AI进行多轮内部推理，这需要消耗更多的计算时间和token。
解决方案：对于非关键问题，可以在提问中注明“请提供快速回答”，这可能会让AI简化反思过程。对于关键问题，请耐心等待，高质量的输出值得多花几十秒。

问题3：AI在某些主观性强的问题上，依然给出模棱两可或错误的答案。

理解：自定义指令是“提示工程”，它优化的是模型“思考与表达的过程”，而非直接扩充模型的“知识库”或改变其“事实性认知”。如果模型底层训练数据中关于某个事实的信息是错误的或不存在的，再好的提示工程也难以凭空造出正确答案。
解决方案：对于事实核查类问题，始终要保持批判性思维，将AI的输出作为参考和起点，而不是最终结论。结合其他可靠信源进行交叉验证。

问题4：我想用于其他AI平台（如Claude、Gemini），是否可行？

评估：核心的“反思-量规-迭代”思想是通用的。你可以尝试将指令的核心逻辑翻译并适配到其他平台的自定义指令或系统提示词中。
操作：重点关注<self_reflection>部分的逻辑描述，将其转化为目标平台能理解的提示语言。不同模型对指令的敏感度和遵循程度不同，需要反复测试和调整。
心得：我在尝试将其适配到另一个主流模型时发现，直接复制粘贴效果不佳。后来我将核心要求简化为：“在回答前，请先默默地从[某领域]专家的角度，制定一个评估答案质量的5维度标准，并确保你的答案在每个维度上都达到优秀水平，然后再输出。” 也取得了不错的效果。关键在于传达“先思后答，自我评估”的核心要求。

这套自定义指令的价值在于，它提供了一种系统化、可复现的方法来提升与大语言模型交互的深度和质量。它不是一个“一键神奇”的咒语，而是一套需要你理解和适当运用的“方法论”。通过它，你与AI的协作将从简单的问答，升级为真正的、结构化的思想碰撞与问题解决伙伴关系。我个人最深的体会是，它强迫我作为提问者，也去思考“什么是一个好问题”，以及“我究竟需要什么质量的答案”，这种双向的优化，才是人机协作效率提升的关键。