临床级Prompt工程实战：如何为大型语言模型设计高效指令集-深圳市維司達科技有限公司

临床级Prompt工程实战：如何为大型语言模型设计高效指令集

“让模型 3 秒给出分诊建议”听起来很酷，直到它把胸痛患者推到骨科候诊区。
那次急诊夜班之后，我才真正意识到：在医疗场景里，Prompt 不是“写句话”那么简单，而是决定模型“行医执照”能不能年检的核心组件。下面把踩过的坑、跑通的实验、能直接复制的模板一次性摊开，省掉你 50% 的人工复核时间。

先放一张 ICU 工作站实拍，提醒你我：任何花哨技巧都要在 2 点 37 分的监护仪报警声里能跑通。

1. 痛点开场：一条 Prompt 如何把胸痛推向骨科

零样本 Prompt（当时图快）：

“患者主诉胸痛，请给出分诊科室。”

模型输出：

“考虑肋软骨炎可能，建议骨科就诊。”

问题拆解：

没有症状边界 → 模型自由联想“骨科常见病”
没有风险警示 → 直接忽略 ACS、肺栓塞等要命的鉴别
没有输出格式 → 一句话完事，置信度、依据、风险提示全没有

结果：护士按建议送患者去骨科，被骨科大夫当场“退货”，重新排队心内科，耽误 18 分钟。夜班同事事后吐槽：“这模型要是医生，早被投诉到吊销执照。”

2. 三种 Prompt 策略的 AUROC 对比实验

我们拿院内 5 万条脱敏急诊病历做验证集，任务统一为“潜在高危胸痛识别”（阳性 = 最终收 CCU/ICU 或 30 天内死亡）。基座模型为 Llama-2-7b-chat，温度 0.1，重复 3 次取平均。

策略	平均 AUROC	95% CI	备注
零样本	0.742	0.731-0.753	快，但容易“幻觉”低风险
小样本（3 例）	0.813	0.804-0.822	提升明显，例子里必须含 1 例阳性
思维链（CoT）+ 小样本	0.857	0.849-0.865	把“思考过程”显式写出来，召回率↑

结论：临床场景下，CoT+小样本是性价比最高的“起步方案”；再往上就要靠领域微调。

3. HIPAA 友好的三阶段模板（症状→鉴别→处置）

下面模板已把院内标识符全部变量化，你可以{占位符}一键替换。关键调优参数用注释标出，方便你回滚 AB 测试。

clinical_prompt = f""" You are a clinical decision support assistant. Only use the information provided below. Do not infer external knowledge. ### Patient Snapshot Age: {age} | Sex: {sex} | Chief Complaint: {chief_complaint} Vital Signs: {vitals} Current meds: {current_meds} ### Task Follow the steps strictly in order and output valid JSON. 1. Symptom Extraction - List up to 5 pertinent positives, 5 negatives - Use SNOMED CT codes where possible 2. Differential Diagnosis - Top 3 with pre- and post-test probability (%) - Provide reasoning in ≤30 words each 3. Next-step Management - Investigations (labs/imaging) - Treatment (first 24 h) - Red-flag monitoring Output schema: {{ "symptoms": {{...}}, "ddx": [...], "management": {{...}} }} """

调用示例（OpenAI API 风格）：

response = openai.ChatCompletion.create( model="gpt-4", messages=[{"role": "user", "content": clinical_prompt}], temperature=0.1, # 越低越确定，但 0 可能死循环 max_tokens=800, stop=["###"] # 遇到下一个段落标记即停，省 token )

把返回 JSON 直接抛给前端表格，护士只需在“红-flag”栏打钩，复核时间从平均 4 分钟降到 1.2 分钟。

4. LoRA 微调：让模型听懂“临床黑话”

再强的 Prompt 也架不住模型把“AF”理解成“音频频率”而不是“房颤”。我们用 LoRA 做 4-bit QLoRA 微调，语料来自本院 3 年内的 180 万份脱敏电子病历，目标就是“术语对齐”。

关键超参：

r=16，alpha=32，dropout=0.05
学习率 2e-4，cosine schedule，3 epoch
训练集只保留出现次数 >50 的医学缩写，防止罕见词带偏

代码片段（基于 peft）：

from peft import LoraConfig, get_peft_model lora_config = LoraConfig( r=16, lora_alpha=32, target_modules=["q_proj", "v_proj"], # Llama-2 的 attention 投影 lora_dropout=0.05, bias="none", task_type="CAUSAL_LM" ) model = get_peft_model(model, lora_config) model.print_trainable_parameters() # 仅占 0.85%

微调后，在 100 条房颤病历盲测里，“AF”被正确解码为“房颤”的比例从 73% → 96%，直接减少后续规则补丁。

5. 对抗提示注入：把“忽略先前指令”关进笼子

医疗应用最怕患者复制一段“魔法句子”让模型泄露他人病历。我们采用“双层防御”：

系统级指令前置
把真正指令放在 messages 列表最底部，用户输入永远插在倒数第二条，模型自注意力最后才看到它，降低覆盖概率。
输出侧关键词黑名单
如果返回含“ignore”、“previous instruction”、“\u0000”等字符，直接拒绝并记审计日志。

代码示例：

def safety_filter(text): deny_list = ["ignore previous", "disregard", "forget", "\u0000"] if any(k in text.lower() for k in deny_list): raise ValueError("Potential prompt injection detected") return text

上线 3 个月，拦截 12 次可疑请求，无漏报，对正常诊疗提问无影响。