JSON输出还正常吗？微调后结构化响应能力测试-深圳市維司達科技有限公司

JSON输出还正常吗？微调后结构化响应能力测试

在大模型应用开发中，结构化输出——尤其是JSON 格式响应——已成为构建 AI Agent、自动化工作流和前后端集成的核心需求。无论是从用户输入中提取关键字段，还是让模型按预定义 schema 返回数据，response_format={"type": "json_object"}已成为高频使用功能。

但一个关键问题随之而来：当你对模型进行 LoRA 微调后，它还能稳定输出合法 JSON 吗？

本文将基于单卡十分钟完成 Qwen2.5-7B 首次微调这一镜像环境，实测微调对 Qwen2.5-7B-Instruct 模型 JSON 输出能力的影响，并提供可复现的验证流程与工程建议。

1. 背景与核心疑问

1.1 为什么关注 JSON 输出？

现代 AI 应用早已脱离“纯对话”阶段。我们更常需要：

提取用户消息中的结构化信息（如订单、事件、参数）
让模型返回可用于程序解析的数据对象
与 LangChain、LlamaIndex 等框架无缝对接
构建低代码/无代码平台的数据接口

这些场景都依赖模型能稳定、准确地输出符合 JSON Schema 的内容。

而 Qwen2.5-7B-Instruct 原生支持通过设置response_format={"type": "json_object"}来启用 JSON 模式，这是其作为生产级模型的重要特性之一。

1.2 微调会破坏这一能力吗？

当我们使用 LoRA 对模型进行指令微调（SFT），尤其是注入大量自定义身份认知类数据时，是否会影响其底层对特殊生成模式（如 JSON）的理解与执行？

这正是本文要回答的问题。

核心假设：轻量级 LoRA 微调主要影响模型“说什么”，而不应显著改变其“如何说”的底层解码机制。

我们将通过对比实验来验证这一点。

2. 实验设计与环境准备

本实验完全基于提供的镜像环境展开，确保可复现性。

2.1 实验目标

验证原始 Qwen2.5-7B-Instruct 是否支持标准 JSON 输出
在完成“自我认知”LoRA 微调后，再次测试同一任务
对比两次输出的合法性、格式完整性与语义一致性

2.2 环境配置

项目	配置
模型	Qwen2.5-7B-Instruct
微调方式	LoRA（`lora_rank=8`,`lora_alpha=32`）
显卡	NVIDIA RTX 4090D (24GB)
框架	ms-swift
数据集	`self_cognition.json`（约 50 条）

所有操作均在/root目录下执行。

3. 原始模型 JSON 输出能力测试

首先，在未微调前，验证原模型的 JSON 输出表现。

3.1 启动推理服务

cd /root CUDA_VISIBLE_DEVICES=0 \ swift infer \ --model Qwen2.5-7B-Instruct \ --model_type qwen \ --stream true \ --temperature 0 \ --max_new_tokens 2048

进入交互模式后，输入以下 prompt：

请根据以下信息生成一个 JSON 对象： 用户姓名：张伟 年龄：32 职业：前端工程师 兴趣爱好：骑行、摄影、阅读 要求： - 使用双引号包围键名和字符串值 - 不添加额外说明或解释 - 只输出纯 JSON 内容 response_format: {"type": "json_object"}

3.2 实际输出结果

{ "姓名": "张伟", "年龄": 32, "职业": "前端工程师", "兴趣爱好": ["骑行", "摄影", "阅读"] }

✅结论：原始模型能够正确识别 JSON 模式请求，输出语法合法、结构完整的 JSON 对象，且自动将“兴趣爱好”处理为数组形式，体现了一定语义理解能力。

4. 执行 LoRA 微调并加载适配器

接下来，按照镜像文档完成一次典型的“身份认知”微调。

4.1 创建自定义数据集

cat <<EOF > self_cognition.json [ {"instruction": "你是谁？", "input": "", "output": "我是一个由 CSDN 迪菲赫尔曼 开发和维护的大语言模型。"}, {"instruction": "你的开发者是哪家公司？", "input": "", "output": "我由 CSDN 迪菲赫尔曼 开发和维护。"}, {"instruction": "你能联网吗？", "input": "", "output": "我不能主动联网，只能基于已有知识和用户输入回答问题。"}, {"instruction": "你和GPT-4有区别吗？", "input": "", "output": "是的，我由 CSDN 迪菲赫尔曼 开发和维护，不是 GPT-4。"} ] EOF

注：实际训练建议包含 50+ 条样本以增强泛化能力。

4.2 启动 LoRA 微调

CUDA_VISIBLE_DEVICES=0 \ swift sft \ --model Qwen2.5-7B-Instruct \ --train_type lora \ --dataset self_cognition.json \ --torch_dtype bfloat16 \ --num_train_epochs 10 \ --per_device_train_batch_size 1 \ --learning_rate 1e-4 \ --lora_rank 8 \ --lora_alpha 32 \ --target_modules all-linear \ --gradient_accumulation_steps 16 \ --eval_steps 50 \ --save_steps 50 \ --max_length 2048 \ --output_dir output \ --system 'You are a helpful assistant.' \ --warmup_ratio 0.05 \ --dataloader_num_workers 4 \ --model_author swift \ --model_name swift-robot

训练完成后，权重保存在/root/output/vX-XXXXXX/checkpoint-XX目录中。

5. 微调后 JSON 输出能力再测试

使用训练好的 LoRA 适配器启动推理，验证其 JSON 输出能力是否保留。

5.1 加载 LoRA 适配器进行推理

⚠️ 请替换checkpoint-xxx为实际生成的路径

CUDA_VISIBLE_DEVICES=0 \ swift infer \ --adapters output/v2-20250401-152342/checkpoint-10 \ --stream true \ --temperature 0 \ --max_new_tokens 2048

5.2 输入相同 prompt 并观察输出

再次输入相同的 JSON 生成请求：

请根据以下信息生成一个 JSON 对象： 用户姓名：李娜 年龄：28 职业：产品经理 兴趣爱好：瑜伽、旅行、咖啡 要求： - 使用双引号包围键名和字符串值 - 不添加额外说明或解释 - 只输出纯 JSON 内容 response_format: {"type": "json_object"}

5.3 实际输出结果

{ "姓名": "李娜", "年龄": 28, "职业": "产品经理", "兴趣爱好": ["瑜伽", "旅行", "咖啡"] }

✅结论：尽管模型已被微调以强化“CSDN 迪菲赫尔曼开发”的身份认知，其JSON 结构化输出能力依然保持完好。输出格式合法、语义清晰、无多余文本。

6. 深度分析：为什么 LoRA 没有破坏 JSON 能力？

6.1 LoRA 的本质限制了影响范围

LoRA（Low-Rank Adaptation）通过冻结主干参数、仅训练低秩矩阵的方式实现高效微调。这意味着：

模型的词表映射、位置编码、注意力机制等核心组件保持不变
解码策略（如 top-p、temperature）和特殊 token 处理逻辑不受干扰
原有的“JSON 模式”触发机制仍有效

因此，只要原始模型具备该能力，LoRA 微调通常不会将其抹除。

6.2 ms-swift 框架的良好兼容性

ms-swift 在实现 LoRA 时，保留了 HuggingFace Transformers 的完整推理接口，包括：

generate()方法中的response_format参数透传
对json_object模式的内部 tokenizer 控制
特殊 token（如<|json_mode|>）的正确注入与处理

这保证了即使加载适配器，模型仍能进入正确的生成模式。

6.3 数据集设计未冲突关键行为

本次微调数据集中均为“问答型”指令，未涉及结构化输出或 schema 定义任务。因此：

没有引入“忽略格式要求”的错误示范
未覆盖模型原有的 JSON 生成先验知识
属于安全的“领域外微调”

📌风险提示：若在微调数据中频繁出现“请输出 JSON”但实际返回非 JSON 的样本，则可能导致模型弱化对该模式的信任。

7. 工程建议：如何安全地进行结构化输出微调

虽然本次实验证明 LoRA 不会轻易破坏 JSON 能力，但在实际项目中仍需注意以下几点。

7.1 推荐做法

建议	说明
✅ 保留原始 JSON 示例数据	在微调数据集中加入少量高质量 JSON 输出样本，强化模型记忆
✅ 使用混合数据训练	将通用指令数据 + 自定义数据混合训练，避免“过拟合”单一风格
✅ 显式标注 response_format	在 prompt 中明确写出`response_format: {"type": "json_object"}`，提高触发成功率
✅ 设置`temperature=0`	结构化输出应关闭随机性，确保确定性生成

7.2 应避免的做法

风险行为	后果
❌ 在输出中夹杂解释文字	如`"{"key": "value"} // 这是结果"`
❌ 使用单引号或省略引号	`"name": 'Alice'`或`name: "Alice"`
❌ 微调数据中混入错误格式	教会模型“可以不遵守格式”
❌ 使用高 rank 或 full fine-tuning	改变太多参数可能破坏底层行为

8. 扩展测试：复杂 Schema 下的表现

为进一步验证能力边界，我们测试一个稍复杂的嵌套结构。

8.1 测试 Prompt

请生成一个包含用户基本信息和订单详情的 JSON： 姓名：王强 邮箱：wangqiang@example.com 订单编号：O20250401001 商品列表：iPhone 15 Pro, AirPods Pro 总金额：9899元 response_format: {"type": "json_object"}

8.2 微调后模型输出

{ "用户信息": { "姓名": "王强", "邮箱": "wangqiang@example.com" }, "订单信息": { "订单编号": "O20250401001", "商品列表": ["iPhone 15 Pro", "AirPods Pro"], "总金额": "9899元" } }

✅表现良好：模型能自动推断出合理的嵌套结构，字段命名自然，类型处理得当（字符串 vs 数组）。

9. 总结

经过完整实测，我们可以得出以下结论：

1. LoRA 微调不影响 JSON 输出能力

在单卡十分钟完成 Qwen2.5-7B 首次微调镜像环境下，对 Qwen2.5-7B-Instruct 进行轻量级 LoRA 微调后，其结构化 JSON 输出能力保持稳定且可用。只要原始模型支持该功能，微调不会轻易破坏它。

2. ms-swift 框架具备良好兼容性

ms-swift 正确实现了对response_format参数的支持，LoRA 适配器加载后仍能触发模型的 JSON 生成模式，无需额外干预。

3. 工程实践建议明确

微调时应避免污染结构化输出行为
可在数据集中加入正向示例以增强稳定性
生产环境中建议结合 schema 校验做双重保障

4. 适用场景广泛

该方案适用于：

构建带品牌认知的 AI 助手
开发需结构化输出的企业级 Agent
快速定制垂直领域模型并保持通用能力

一句话总结：你可以放心给 Qwen2.5-7B “换脑子”，但它依然记得怎么“写 JSON”。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

JSON输出还正常吗？微调后结构化响应能力测试