基于SFT与DPO的专用OCR小语言模型：从通用文字识别到结构化信息提取-深圳市維司達科技有限公司

1. 项目概述：为什么我们需要一个“专用”的OCR模型？

最近在做一个票据识别的项目，客户要求从五花八门的单据里，把公司抬头、税号、金额、日期这些关键信息精准地提取出来，并且要结构化地填到系统里。一开始，我们团队信心满满地上了几个市面上口碑不错的开源OCR方案，比如PaddleOCR，也试了某云平台的商业OCR API。结果呢？通用模型在规整的印刷体上表现尚可，但一遇到手写体、模糊的扫描件、或者格式千奇百怪的定制化单据，准确率就直线下降。更头疼的是，后处理规则写得越来越复杂，像个打满补丁的旧衣服，维护成本高得吓人。

这就是通用OCR的瓶颈：它试图用一个模型解决所有问题，但现实世界的文档是高度多样化和领域特定的。于是，我们开始探索一条新路：训练一个专为“结构化信息提取”任务优化的小语言模型（SLM）。这就是DharmaOCR项目的由来。它不是要取代通用的文字检测和识别，而是在此基础上，增加一个强大的“理解与结构化”层。简单说，通用OCR负责“看清字”，而DharmaOCR负责“读懂意思并整理好”。

为什么选择小语言模型（SLM）而不是直接微调百亿参数的大模型？原因很现实：成本与效率。一个经过SFT（监督微调）和DPO（直接偏好优化）精心调校的7B或13B参数模型，在专用任务上的表现，完全可以超越那些“大而全”的通用模型，同时推理速度更快，部署成本（尤其是显存占用）低得多。你不需要为用不上的“通识能力”付费。最近社区里很多人在问，为什么用40G显存跑Qwen-VL这类大模型的SFT都会爆显存？这恰恰说明了在垂直领域，轻量、专精的模型才是务实的选择。

DharmaOCR的目标很明确：在发票、合同、报表等特定场景的结构化OCR任务上，实现比开源方案（如基于CRNN+CTC的模型）和商业API更高的准确率与召回率，同时保持私有化部署的可行性与数据安全性。

2. 核心思路：SFT与DPO如何锻造一个“领域专家”？

要理解DharmaOCR，核心在于弄懂SFT和DPO这两步优化是如何工作的。这不像传统的OCR训练（主要是检测+识别），而是更像在培养一个具备文档理解能力的“领域专家”。

2.1 监督微调（SFT）：注入领域知识

SFT是第一步，目的是让一个具备基础语言能力的预训练模型（比如Qwen-7B， ChatGLM3-6B），学会我们特定的任务格式和领域知识。

任务定义：我们的输入不再是单纯的图片，而是“图片+任务指令”。例如，指令可能是：“请从这张增值税发票图片中，提取出‘销售方名称’、‘购买方纳税人识别号’、‘金额合计（大写）’、‘开票日期’四个字段。” 输出则要求是严格的JSON格式：{“销售方名称”: “xxx有限公司”， “购买方纳税人识别号”: “91110108MA01XXXXXX”， ...}。
数据构造：这是最费功夫但也最关键的一步。我们需要收集成千上万张目标领域的文档图片，并人工或半自动地标注出结构化的答案。一份高质量的SFT数据应该包含：
- 多样性：涵盖不同版式、不同清晰度、不同拍摄角度的样本。
- 复杂性：包含字段缺失、字段位置多变、手写干扰、印章遮挡等挑战性案例。
- 指令多样性：同一样本，可以用不同表述的指令来要求提取不同字段组合，增强模型的指令遵循能力。
训练过程：使用标准的因果语言建模损失，让模型学会根据“指令+图片特征”预测出正确的JSON序列。这里，图片需要通过一个视觉编码器（如CLIP的ViT或一个轻量CNN）转换为特征向量，并与文本指令嵌入拼接，一起输入给语言模型。

实操心得：在SFT阶段，数据质量远大于数据数量。1000份标注精准、覆盖各种边角案例的数据，比10000份质量一般的数据效果要好得多。另外，指令的编写要清晰、无歧义，最好与最终应用场景的查询方式保持一致。

2.2 直接偏好优化（DPO）：对齐人类判断与纠错

SFT后的模型，已经能完成任务，但输出可能不稳定。有时它会“幻觉”出图片中没有的信息，有时会对模糊字段做出过于自信但错误的判断，有时JSON格式会出错。DPO的作用，就是进一步打磨模型，让它输出的答案更符合人类的偏好——即更准确、更可靠、格式更规范。

偏好数据构建：我们不再需要提供标准答案，而是需要提供“好答案”和“坏答案”的对比对。例如，对于同一张发票和同一个指令：
- 优选回答 (Chosen)：{“开票日期”: “2023年11月15日”}（清晰准确）
- 劣选回答 (Rejected)：{“开票日期”: “2023年11月”}（信息不全）或{“Date”: “15/11/2023”}（格式不符）或{“开票日期”: “2023年11月15日”， “备注”: “快递到付”}（幻觉出额外字段）。
优化目标：DPO通过一个巧妙的数学转换，避免了需要训练一个复杂的“奖励模型”的步骤。它直接利用偏好数据，调整模型参数，使得模型对“好答案”的生成概率远高于对“坏答案”的生成概率。其损失函数鼓励模型在“保持原有语言能力”和“提升偏好答案得分”之间取得平衡。
带来的提升：
- 格式规范性：经过DPO，模型几乎不会输出非JSON格式的内容。
- 抗幻觉能力：对于图片中不清晰或没有的字段，模型更倾向于输出空值或明确标注“未识别”，而不是胡编乱造。
- 模糊信息处理：当字段存在歧义时（如一个框里既有打印日期又有手写日期），模型输出更保守、更合理的那个选项的概率会增大。

注意事项：DPO数据的质量要求极高。“坏答案”不能是随机生成的垃圾，而必须是模型在SFT后可能真实犯的、有代表性的错误。构建这类数据的一个有效方法是：用SFT后的模型对一批数据做推理，然后人工筛选和修正其输出，将原始错误输出作为“劣选”，修正后的作为“优选”。

通过SFT注入知识，再通过DPO对齐偏好，DharmaOCR这样一个专用小模型，就能在它熟悉的领域内，表现出超越通用基线的精准度和可靠性。

3. 技术架构与工具链拆解

要实现DharmaOCR，我们需要一套完整的技术栈。下图清晰地展示了从原始文档到结构化数据的端到端流程，以及各环节对应的核心技术组件：

flowchart TD A[原始文档图像] --> B(通用OCR引擎) subgraph B[文本检测与识别] B1[文本检测模块] B2[文本识别模块] B1 --> B2 end B --> C[文本块、坐标、内容] C --> D[DharmaOCR 专用小语言模型] subgraph D[模型核心] D1[视觉编码器<br>（如轻量级ViT）] D2[语言模型骨干<br>（如Qwen-7B）] D3[SFT & DPO 微调] D1 --> D2 D2 --> D3 end D --> E{模型推理} E --> F[结构化JSON输出] C --> G[提示词工程] G --> D H[领域特定训练数据] --> D3

整个流程可以分解为以下几个核心环节：

3.1 视觉信息接入：如何让语言模型“看见”图片？

语言模型本身是处理文本的，要让其理解图片，必须借助视觉编码器。这里有几个主流选择：

CLIP ViT：这是目前多模态模型最常用的方案。CLIP的视觉编码器（ViT-B/16或ViT-L/14）在大量图文对上预训练过，提取的特征具有强大的语义信息。我们可以冻结其参数，只将提取的视觉特征序列作为“特殊标记”输入给语言模型。
轻量级CNN：如果对部署速度有极致要求，可以考虑使用ResNet等CNN网络。虽然语义理解能力可能稍弱于ViT，但推理速度更快，参数量更小。
项目策略：DharmaOCR为了平衡效果与效率，通常采用一种混合策略。使用一个中等规模的ViT（如ViT-Base）作为视觉编码器，但其输出会经过一个可训练的投影层，映射到语言模型嵌入空间。在SFT阶段，视觉编码器和投影层与语言模型一起微调，让它们更好地协同工作。

3.2 文本信息注入：双流输入的设计

除了原始的图像像素，文档中已被通用OCR识别出的文本信息是极其宝贵的先验知识。直接让模型从像素中识别文字，对SLM来说负担太重。因此，我们采用“双流输入”：

流一：视觉特征。如上所述，提供全局的版面、字体、布局等信息。
流二：OCR文本序列。将通用OCR（如PaddleOCR）识别出的所有文本块，按照某种逻辑顺序（如从上到下、从左到右）拼接成一个纯文本序列。这个序列会以明确的提示词（如“OCR识别结果：”）开头，作为另一部分输入。

这样，语言模型的工作就从“识别+理解”简化为“阅读理解”。它基于视觉特征感知文档类型和结构，再基于OCR文本序列进行精准的信息抽取和关联，大大降低了任务难度。

3.3 模型骨干与微调框架选型

模型骨干选择：
- Qwen系列：Qwen-7B/14B在中文理解和指令跟随上表现优异，社区活跃，工具链完善，是当前中文项目的主流选择。
- ChatGLM3系列：GLM-6B/12B同样针对中文优化，架构独特，在长文本和推理任务上有一定优势。
- 选择考量：对于OCR结构化任务，7B参数规模通常已足够。选择时需综合考虑中文能力、推理速度、显存占用以及是否易于与视觉编码器集成。Qwen-7B因其均衡的表现，常被作为起点。
微调框架：
- Transformers + PEFT：这是最灵活的组合。使用Hugging Face的Transformers库加载模型，利用PEFT（参数高效微调）技术，如LoRA（低秩适配）或QLoRA（量化LoRA），进行SFT和DPO。QLoRA允许在有限的显存（如单卡24G）上微调大模型，是个人和小团队的福音。
- LLaMA-Factory / XTuner：这些是更高层的微调框架，封装了数据集格式化、训练脚本、模型适配等流程，提供了“一站式”的解决方案，能极大降低入门门槛。

避坑指南：如果你打算用QLoRA进行微调，务必注意校准数据的选择。使用与任务领域相关的少量文本进行量化校准，能显著减少量化带来的精度损失。不要直接使用默认的C4数据集校准，那可能不适合中文或文档场景。

4. 从零到一的完整实操流程

假设我们现在要为一个“企业财务报表关键指标提取”任务构建DharmaOCR模型。以下是详细的步骤。

4.1 阶段一：数据准备与标注

这是最耗时但决定模型上限的环节。

原始数据收集：收集至少1000-5000张财务报表（利润表、资产负债表）的扫描件或截图。确保涵盖不同模板、不同公司、不同清晰度（可适当加入一些模拟的噪声、旋转、模糊以增强鲁棒性）。

通用OCR预处理：使用PaddleOCR对所有图片进行批量处理，获取每个文本块的坐标(boxes)、内容(texts)和置信度(scores)。输出保存为结构化文件（如JSONL格式，每行对应一张图）。

// 单张图片OCR结果示例 (ocr_result.jsonl) { "image_path": "financial_report_001.jpg", "ocr_blocks": [ {"box": [[10, 20], [150, 20], [150, 40], [10, 40]], "text": "利润表", "score": 0.99}, {"box": [[15, 60], [80, 60], [80, 75], [15, 75]], "text": "营业收入", "score": 0.98}, {"box": [[200, 60], [280, 60], [280, 75], [200, 75]], "text": "5, 000, 000.00", "score": 0.95}, // ... 更多文本块 ] }

SFT数据标注：为每张图片编写指令和标准答案。
- 指令：清晰明确。例如：“请从这份利润表中，提取‘营业收入’、‘营业成本’、‘利润总额’和‘净利润’四个项目的本年金额。”
- 答案：严格按照JSON格式。例如：{“营业收入”: “5000000.00”, “营业成本”: “3000000.00”, “利润总额”: “1500000.00”, “净利润”: “1200000.00”}。对于未找到的字段，值设为空字符串""或null。
- 数据格式：最终整理成模型训练所需的格式，如Alpaca格式：
```
{ "instruction": "请从这份利润表中，提取‘营业收入’、‘营业成本’、‘利润总额’和‘净利润’四个项目的本年金额。", "input": "Image: [IMAGE_FEATURE_PLACEHOLDER]\nOCR文本：利润表 营业收入 5,000,000.00 营业成本 3,000,000.00 ...", "output": "{“营业收入”: “5000000.00”, “营业成本”: “3000000.00”, “利润总额”: “1500000.00”, “净利润”: “1200000.00”}" }
```
注意：[IMAGE_FEATURE_PLACEHOLDER]在实际训练时会被真实的图像特征向量替换。
DPO数据构建：从SFT模型在验证集上的推理结果中筛选。人工审查，将错误的输出（格式错误、提取错误、幻觉）与纠正后的正确输出配对。形成(prompt, chosen_response, rejected_response)三元组列表。

4.2 阶段二：模型训练与微调

我们使用QLoRA在单卡24G显存上进行微调。

环境搭建：

# 创建环境 conda create -n dharmar python=3.10 conda activate dharmar # 安装核心库 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 pip install transformers accelerate peft datasets bitsandbytes pip install pillow opencv-python paddleocr # 用于图像和OCR预处理

SFT训练脚本核心配置：

from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments from peft import LoraConfig, get_peft_model, TaskType import torch # 1. 加载基座模型和分词器 model_name = "Qwen/Qwen-7B-Chat" tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( model_name, load_in_4bit=True, # 使用4bit量化以节省显存 bnb_4bit_compute_dtype=torch.float16, device_map="auto", trust_remote_code=True ) # 2. 配置LoRA lora_config = LoraConfig( task_type=TaskType.CAUSAL_LM, r=8, # LoRA秩 lora_alpha=32, lora_dropout=0.1, target_modules=["q_proj", "k_proj", "v_proj", "o_proj"] # 针对Qwen的注意力模块 ) model = get_peft_model(model, lora_config) model.print_trainable_parameters() # 查看可训练参数量，通常只有原模型的0.1% # 3. 准备数据集（需自定义DataCollator处理图像特征） # ... 此处省略数据集加载和预处理代码 ... # 4. 配置训练参数 training_args = TrainingArguments( output_dir="./sft_checkpoint", per_device_train_batch_size=4, gradient_accumulation_steps=4, num_train_epochs=3, logging_steps=10, save_steps=200, learning_rate=2e-4, fp16=True, remove_unused_columns=False, # 重要！保留图像特征等自定义列 ) # 5. 创建Trainer并开始训练 trainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, data_collator=custom_data_collator, ) trainer.train()

DPO训练：SFT训练完成后，加载SFT检查点，使用DPOTrainer进行偏好优化。需要准备好DPO三元组数据集。

from trl import DPOTrainer dpo_trainer = DPOTrainer( model=model, ref_model=ref_model, # 通常是SFT后的模型副本，或初始模型 args=DPO_TrainingArguments(...), train_dataset=dpo_dataset, tokenizer=tokenizer, ) dpo_trainer.train()

4.3 阶段三：推理部署与API封装

训练完成后，我们需要将模型部署为可调用的服务。

模型合并与导出：使用PEFT的merge_and_unload()方法，将LoRA适配器权重合并到基础模型中，并保存为完整的模型文件，便于部署。
```
# 合并LoRA权重 model = model.merge_and_unload() # 保存完整模型 model.save_pretrained("./dharmar_final") tokenizer.save_pretrained("./dharmar_final")
```

构建推理Pipeline：

class DharmaOCRInference: def __init__(self, model_path, ocr_engine): self.model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto") self.tokenizer = AutoTokenizer.from_pretrained(model_path) self.ocr_engine = ocr_engine self.image_processor = ... # 视觉编码器的处理器 def extract(self, image_path, instruction): # 1. OCR ocr_result = self.ocr_engine.ocr(image_path, cls=True) ocr_text = self._format_ocr(ocr_result) # 2. 图像编码 image_features = self.image_processor(image_path) # 3. 构造提示词 prompt = f"Instruction: {instruction}\nImage: [IMG]\nOCR Text: {ocr_text}\nOutput:" # 4. 模型推理 inputs = self.tokenizer(prompt, return_tensors="pt").to(self.model.device) # 将image_features以适当方式注入inputs（需自定义） outputs = self.model.generate(**inputs, max_new_tokens=200) result = self.tokenizer.decode(outputs[0], skip_special_tokens=True) # 5. 解析JSON输出 return self._parse_json(result)

部署优化：
- 量化：使用GPTQ或AWQ进行后训练量化，可将模型大小压缩至原来的1/4，并提升推理速度。
- 服务化：使用FastAPI封装上述类，提供HTTP API接口。
- 批处理：对于大量文档，可以实现批处理推理以提高吞吐量。

5. 效果对比、常见问题与调优心得

5.1 与基线模型的对比

我们在内部构建的500张财务报表测试集上，对比了不同方案：

模型/方案	字段抽取准确率 (F1)	平均处理耗时 (单张)	部署复杂度	数据隐私
通用OCR + 规则引擎	78.5%	~200ms	高	私有
商业OCR API (通用版)	85.2%	~300ms (含网络)	低	外部
商业OCR API (财务定制)	92.1%	~500ms (含网络)	低	外部
开源VLM (如Qwen-VL)	88.7%	~2000ms	中	私有
DharmaOCR (7B, SFT+DPO)	95.8%	~800ms	中	私有

分析：

准确率：DharmaOCR显著优于通用方案和开源VLM。其专用性使其能更好地理解财务文档的语义和结构。
速度：比大型VLM快很多，虽然比纯规则引擎慢，但换来了更高的准确率和泛化能力，无需维护复杂规则。
隐私与成本：私有化部署保障了数据安全，一次训练后，边际调用成本极低，长期看远低于按次付费的商业API。

5.2 实战中遇到的典型问题与解决方案

问题：模型对OCR错误传播非常敏感。
- 现象：OCR把“1,200.00”误识别为“1,200.00”，模型提取的金额就是错的。
- 解决方案：
  - 数据增强：在SFT数据中，可以人工模拟一些常见的OCR错误（如数字‘0’和‘O’，‘1’和‘l’混淆），让模型学会一定的纠错和抗干扰能力。
  - 置信度过滤：在将OCR文本输入模型前，过滤掉置信度过低的识别结果（如score < 0.7），或将其标记为[UNCLEAR]，让模型知道这部分信息不可靠。
  - 多OCR引擎融合：对于关键字段区域，可以调用多个OCR引擎（如PaddleOCR + Tesseract），取置信度最高或投票最多的结果。
问题：模型在处理全新版式时表现下降。
- 现象：训练数据中没有出现过的报表模板，抽取准确率明显降低。
- 解决方案：
  - 指令泛化：在训练指令中，减少对具体位置、样式的描述，更多强调字段的“语义”。例如，不说“提取右下角的净利润”，而说“提取报表中的‘净利润’项目金额”。
  - 主动学习：部署后，建立一个反馈循环。将模型置信度低的预测结果交给人工复核，并将这些“困难样本”加入训练集，进行增量训练。
问题：DPO训练后模型变得过于保守，拒绝回答。
- 现象：对于一些本应能提取的字段，模型开始频繁输出空值或“未找到”。
- 解决方案：
  - 检查DPO数据：可能是“劣选”答案中包含过多“正确但格式稍有瑕疵”的样本，导致模型将“不输出”视为最安全的选项。需要清理DPO数据，确保“劣选”是明确的错误。
  - 调整DPO超参数：降低beta参数（DPO损失中的温度参数），可以减少模型对偏好数据的“过度拟合”，保留更多SFT阶段学到的生成能力。

5.3 关键调优心得

视觉编码器微调很重要：不要完全冻结视觉编码器。在SFT阶段，让其与语言模型一起进行轻量微调（如只微调最后几层），能显著提升模型对文档布局、印章、手写标注等视觉线索的利用能力。
OCR文本的格式化是门艺术：简单地将所有OCR文本按坐标排序后拼接，可能不是最优的。尝试按阅读顺序（如先标题、再表格、再页脚）组织文本，或在文本块间加入换行符\n来模拟段落，能帮助模型更好地理解文档结构。
逐步扩充任务：不要一开始就让模型提取几十个字段。从一个核心字段（如“总金额”）开始，逐步增加字段数量。这有助于稳定训练过程，并方便定位问题。
评估指标要具体：不要只看整体的F1分数。要按字段类型（数字、日期、文本）分别评估。例如，日期字段的格式一致性（是否统一为YYYY-MM-DD）可能比单纯的文本匹配更重要。

构建一个像DharmaOCR这样的专用小模型，是一个典型的“数据驱动”和“迭代优化”的过程。它没有通用大模型的炫酷，但在具体的业务场景下，能实实在在地解决痛点，提升效率。当你的文档处理需求明确且固定时，投入资源打造这样一个专属工具，从长远看，无论是在效果、成本还是自主可控性上，都是一笔非常划算的投资。