基于RexUniNLU的智能文档比对系统开发实战-深圳市維司達科技有限公司

基于RexUniNLU的智能文档比对系统开发实战

你有没有经历过这样的场景？法务同事拿着两份厚厚的合同，眉头紧锁，一行一行地对比，生怕漏掉任何一个条款的细微改动。或者，你自己在审阅项目文档的不同版本时，被那些密密麻麻的修订标记搞得眼花缭乱。

传统的人工文档比对，不仅效率低下，还容易出错。一个关键条款的微小变更，可能就意味着巨大的商业风险。但现在，情况不一样了。

今天，我想跟你分享一个我们团队最近落地的项目：基于RexUniNLU的智能文档比对系统。这个系统能自动识别合同版本间的差异，精准定位关键条款变更，甚至还能标记出潜在的风险点。我们把它用在法务流程里，效率提升了不止一个量级。

这篇文章，我就带你从头到尾走一遍这个系统的开发过程。我会用最直白的话，告诉你我们是怎么想的、怎么做的，以及中间踩过哪些坑。即使你之前没怎么接触过自然语言处理，跟着步骤走，也能理解整个思路。

1. 为什么需要智能文档比对？

在深入技术细节之前，我们先聊聊为什么传统的文档比对方法不够用。

想象一下，你手上有两份合同，一份是初稿，一份是修改后的版本。用Word自带的“比较”功能，或者一些在线比对工具，确实能看到哪里被删了、哪里被加了。但这只是最表层的“文本差异”。

真正的挑战在于语义理解。

比如，初稿里写的是“甲方应在30个工作日内支付款项”，修改后变成了“甲方应在收到发票后15个工作日内支付款项”。从文本上看，只是多了一句话。但从语义上看，这涉及到付款条件的重大变更——增加了“收到发票”这个前提，同时付款期限从30天缩短到了15天。

传统工具只能告诉你“这里多了几个字”，但不会告诉你“这里的付款条件变严格了”。这就是我们需要智能系统的原因：不仅要看到字面上的不同，更要理解这些不同意味着什么。

我们的智能文档比对系统，主要想解决三个问题：

自动识别差异：不用人工逐行对比，系统自动找出所有修改点。
理解变更类型：不只是“增删改”，还要判断这是“条款内容变更”、“金额调整”、“日期修改”还是“责任方变化”。
评估风险等级：根据变更内容，自动标记高风险、中风险、低风险点，让法务人员优先关注重要部分。

2. 技术选型：为什么是RexUniNLU？

市面上能做文本理解的模型不少，我们最终选择RexUniNLU，主要是看中了它的几个特点。

首先，它足够“通用”。RexUniNLU是一个零样本通用自然语言理解模型。简单说，就是它不用针对每个具体任务都重新训练一遍。我们的文档比对，本质上是一系列自然语言理解任务的组合：要识别实体（比如公司名、金额、日期）、要抽取关系（比如“甲方”和“支付”的关系）、要分类文本（比如这段是“违约责任”条款还是“保密条款”）。

如果用传统的方案，我们可能需要分别部署一个实体识别模型、一个关系抽取模型、一个文本分类模型……不仅部署复杂，而且模型之间的协调也是个问题。RexUniNLU把这些任务都统一到了一个框架里，我们只需要用一种方式调用，就能完成多种理解任务。这对我们这种需要快速迭代上线的项目来说，太重要了。

其次，它的“零样本”能力很实用。“零样本”听起来有点玄乎，其实意思就是，即使模型没在“文档比对”这个特定任务上训练过，它也能根据我们的指令（Prompt）很好地完成任务。因为合同条款千变万化，我们不可能收集所有类型的条款去训练模型。RexUniNLU通过精心设计的提示（Prompt），能引导模型理解我们想要它做什么。比如，我们告诉它“请找出文本中所有表示时间的词”，它就能把“30个工作日”、“2024年12月31日前”这些都找出来。

最后，它的性能表现不错。根据官方介绍和一些社区反馈，RexUniNLU在保持较高精度的同时，推理速度也有优化。这对于需要处理大量文档的比对系统来说，是个硬性指标。没人愿意等一个好几分钟才能出结果的系统。

当然，它也不是完美的。比如在处理一些非常冷门或专业性极强的法律术语时，可能还需要一些额外的调优。但总体来看，它的通用性、易用性和性能，让它成为了我们项目的最优解。

3. 系统核心设计思路

我们的智能文档比对系统，核心流程可以概括为三步：解析 -> 理解 -> 比对。

听起来简单，但每一步里面都有不少门道。

第一步：文档解析与预处理合同可能是Word、PDF、甚至扫描图片。我们的第一步是把它们都变成纯文本，并且尽量保持原有的结构，比如章节标题、段落、列表项。这里我们用了一些开源库，比如针对PDF的pdfplumber，针对Word的python-docx。对于图片，则先用OCR（光学字符识别）转成文字。这一步的关键是“保真”，要尽量减少格式信息丢失带来的误差。

第二步：基于RexUniNLU的深度理解这是系统的“大脑”。我们把清洗好的文本喂给RexUniNLU模型，让它帮我们做三件事：

条款分割与分类：把一整份合同，按照“鉴于条款”、“定义条款”、“付款条款”、“违约责任”、“保密条款”等类型，切分成一个个独立的语义块，并打上标签。
关键信息抽取：在每个条款块里，抽取出核心信息。比如在付款条款里，抽出“付款方”、“收款方”、“金额”、“货币”、“付款期限”、“付款条件”。
实体与关系识别：识别出文本中的法律实体（甲、乙、丙方）、时间、金额、百分比等，并理清它们之间的关系（如“甲方”有义务“支付”“XX元”给“乙方”）。

我们通过设计不同的Prompt（提示）来引导模型完成这些任务。这是整个项目中最需要“巧思”的部分。

第三步：结构化比对与风险分析经过第二步，两份合同不再是一堆文字，而是变成了两套结构化的数据。这时候的比对，就变成了数据的比对。

条款级比对：看同一个条款（比如“违约责任”）在两个版本里有没有，内容是否一致。
信息点级比对：在同一个条款内，对比抽取出的关键信息。比如“违约金比例”从“5%”变成了“10%”，这就是一个需要高亮显示的变更点。
风险判定：我们预先定义了一套规则库。比如，规则说“任何涉及金额增加的变更”属于“高风险”，“任何涉及时限缩短的变更”属于“中风险”。系统根据比对出的差异类型，自动匹配规则，给出风险等级和建议。

整个系统的架构图大致如下，你可以看到数据是如何流动的：

原始文档A (PDF/Word) -> 解析 -> 纯文本A -> RexUniNLU理解 -> 结构化数据A | V 智能比对引擎 -> 差异报告（含风险标记） ^ | 原始文档B (PDF/Word) -> 解析 -> 纯文本B -> RexUniNLU理解 -> 结构化数据B

4. 手把手搭建：从环境到第一份比对报告

理论说了这么多，咱们来点实际的。下面我就带你一步步把核心功能跑起来。假设你已经有了基本的Python环境。

4.1 环境准备与模型部署

首先，安装必要的库。RexUniNLU模型可以通过ModelScope来方便地使用。

# 安装ModelScope核心库和模型相关依赖 pip install modelscope pip install torch torchvision torchaudio # 根据你的CUDA版本选择合适版本

接下来，我们来加载RexUniNLU模型。ModelScope提供了非常便捷的Pipeline方式。

from modelscope.pipelines import pipeline from modelscope.utils.constant import Tasks # 创建通用信息抽取的pipeline # 模型ID就是 'iic/nlp_deberta_rex-uninlu_chinese-base' nlp_pipeline = pipeline(Tasks.siamese_uie, model='iic/nlp_deberta_rex-uninlu_chinese-base') print("模型加载成功！")

第一次运行会下载模型，可能需要一点时间。下载完成后，模型就准备好了。

4.2 设计第一个Prompt：抽取合同实体

现在，我们试试用模型来理解一句简单的合同文本。假设我们有这么一句话：

“甲方北京云智科技有限公司应在2024年12月31日前，向乙方上海数据技术有限公司支付服务费人民币壹佰万元整。”

我们想让模型帮我们找出：谁（甲方）、谁（乙方）、什么时间、支付多少钱。

在RexUniNLU里，我们通过一个叫schema的参数来告诉模型我们想找什么。schema就像一个查询模板。

# 定义我们想要抽取的信息结构（Schema） # 这就像给模型一张“寻宝图” contract_schema = { '甲方': None, # 告诉模型，请找出“甲方”是谁 '乙方': None, # 告诉模型，请找出“乙方”是谁 '截止日期': None, # 告诉模型，请找出“截止日期”是什么 '支付金额': None # 告诉模型，请找出“支付金额”是多少 } # 要分析的合同文本 contract_text = “甲方北京云智科技有限公司应在2024年12月31日前，向乙方上海数据技术有限公司支付服务费人民币壹佰万元整。” # 调用模型进行信息抽取 result = nlp_pipeline(input=contract_text, schema=contract_schema) print("抽取结果：") print(result)

运行这段代码，你会得到类似下面的输出（格式可能略有调整）：

{ '甲方': [{'text': '北京云智科技有限公司', 'start': 2, 'end': 12}], '乙方': [{'text': '上海数据技术有限公司', 'start': 24, 'end': 34}], '截止日期': [{'text': '2024年12月31日前', 'start': 15, 'end': 23}], '支付金额': [{'text': '人民币壹佰万元整', 'start': 41, 'end': 49}] }

看，模型成功地把我们关心的信息都抽出来了！text是找到的原文片段，start和end是它在原文中的位置。这个结果已经是结构化的数据了，非常方便后续处理。

4.3 实现文档比对的核心逻辑

有了单份文档的理解能力，我们就可以开始比对了两份文档了。为了演示，我们假设有两个简化版的合同文本。

# 假设这是合同版本A（旧版） doc_a_text = """ 第一条 服务内容 乙方为甲方提供为期一年的技术咨询服务。 第二条 服务费用 甲方应向乙方支付咨询服务费总计人民币伍拾万元。 第三条 付款方式 合同签订后7个工作日内，甲方向乙方支付首付款人民币贰拾万元。 项目中期报告提交后7个工作日内，甲方向乙方支付第二笔款项人民币贰拾万元。 项目最终验收合格后7个工作日内，甲方向乙方支付尾款人民币壹拾万元。 """ # 假设这是合同版本B（新版） doc_b_text = """ 第一条 服务内容 乙方为甲方提供为期一年的技术咨询服务。 第二条 服务费用 甲方应向乙方支付咨询服务费总计人民币陆拾万元。 第三条 付款方式 合同签订后10个工作日内，甲方向乙方支付首付款人民币叁拾万元。 项目中期报告提交后10个工作日内，甲方向乙方支付第二笔款项人民币贰拾万元。 项目最终验收合格后10个工作日内，甲方向乙方支付尾款人民币壹拾万元。 """ # 我们关心费用和时间的变更 comparison_schema = { '总费用': None, '首付款金额': None, '首付款期限': None, '中期款金额': None, '中期款期限': None, '尾款金额': None, '尾款期限': None } # 分别处理两个版本 result_a = nlp_pipeline(input=doc_a_text, schema=comparison_schema) result_b = nlp_pipeline(input=doc_b_text, schema=comparison_schema) print("版本A抽取结果：") print(result_a) print("\n版本B抽取结果：") print(result_b)

运行后，我们得到了两个版本的结构化数据。接下来的比对就变成了字典数据的比较。

def compare_extracted_results(result_a, result_b): """比较两个抽取结果，找出差异""" differences = [] # 遍历我们关心的所有字段 for key in comparison_schema.keys(): value_a = result_a.get(key, [{'text': '未提及'}])[0]['text'] value_b = result_b.get(key, [{'text': '未提及'}])[0]['text'] if value_a != value_b: differences.append({ '字段': key, '版本A': value_a, '版本B': value_b, '变更类型': '内容修改' }) return differences # 执行比对 diff_report = compare_extracted_results(result_a, result_b) print("\n===== 文档差异报告 =====\n") for diff in diff_report: print(f"发现变更：{diff['字段']}") print(f" 旧版：{diff['版本A']}") print(f" 新版：{diff['版本B']}") print(f" 类型：{diff['变更类型']}\n")

输出结果会清晰地告诉我们：

===== 文档差异报告 ===== 发现变更：总费用 旧版：人民币伍拾万元 新版：人民币陆拾万元 类型：内容修改 发现变更：首付款金额 旧版：人民币贰拾万元 新版：人民币叁拾万元 类型：内容修改 发现变更：首付款期限 旧版：7个工作日内 新版：10个工作日内 类型：内容修改 发现变更：中期款期限 旧版：7个工作日内 新版：10个工作日内 类型：内容修改 发现变更：尾款期限 旧版：7个工作日内 新版：10个工作日内 类型：内容修改

看，系统自动发现了总费用增加了10万元，首付款增加了10万元，而且所有付款期限都从7天延长到了10天。这比单纯看文本差异要直观得多！

4.4 添加风险判断规则

最后，我们给这个简单的比对器加上一点“智能”，让它能判断风险。我们在compare_extracted_results函数里增加一些规则。

def assess_risk(field, value_a, value_b): """根据字段和值的变化评估风险""" # 这里是一些非常简化的规则示例 risk_rules = { '总费用': lambda a, b: '高风险' if ('拾' in b and '伍' in a) else '低风险', # 费用增加 '首付款金额': lambda a, b: '高风险' if ('叁' in b and '贰' in a) else '低风险', '首付款期限': lambda a, b: '中风险' if ('10' in b and '7' in a) else '低风险', # 期限延长，可能对收款方不利 # ... 可以添加更多规则 } assess_func = risk_rules.get(field, lambda a, b: '待评估') return assess_func(value_a, value_b) # 在比较循环中加入风险评估 for key in comparison_schema.keys(): value_a = result_a.get(key, [{'text': '未提及'}])[0]['text'] value_b = result_b.get(key, [{'text': '未提及'}])[0]['text'] if value_a != value_b: risk_level = assess_risk(key, value_a, value_b) differences.append({ '字段': key, '版本A': value_a, '版本B': value_b, '变更类型': '内容修改', '风险等级': risk_level # 新增风险等级 })

现在，输出的报告里就会包含风险等级了，法务同事可以优先处理那些标为“高风险”的变更。

5. 从Demo到生产：你可能遇到的问题

上面我们完成了一个核心流程的Demo。但要把它变成一个真正能在公司里用的生产系统，还有不少路要走。这里分享几个我们踩过的坑和解决办法。

问题一：文档格式复杂，解析不准。PDF里的表格、扫描件倾斜、Word中的复杂排版，都可能让解析出的文本乱七八糟。我们的对策是“组合拳”：用了不止一个解析库，对解析结果做后处理（比如用正则表达式修复常见的错位），对于特别重要的合同，甚至保留人工复核入口。

问题二：模型对专业术语理解有偏差。像“不可抗力”、“瑕疵担保”这些法律术语，通用模型可能接触不多。我们做了两件事：一是精心设计Prompt，在Prompt里加入定义和例子；二是对于高频核心术语，考虑用小样本对模型进行微调（Fine-tuning），虽然RexUniNLU主打零样本，但它也支持微调。

问题三：比对逻辑需要覆盖各种边角情况。比如，一个条款在A版本里有，在B版本里被整个删掉了，这怎么算？或者，条款顺序调换了，但内容没变，这要不要提示？我们建立了一个更完善的比对状态机，定义了“新增”、“删除”、“修改”、“移动”、“未变”等多种状态，让报告更精准。

问题四：性能与并发。当需要同时比对很多份文档时，如何优化？我们采用了异步处理，把文档解析、模型推理、结果比对这几个步骤解耦，用队列来管理。对于RexUniNLU模型，我们把它部署成了独立的API服务，方便横向扩展。

6. 总结

回过头来看，基于RexUniNLU构建智能文档比对系统，是一个把前沿AI技术落到具体业务场景的典型例子。它的价值不在于用了多炫酷的算法，而在于真正解决了法务、风控、商务等岗位的实际痛点——从枯燥、易错的人工劳动中解放出来，去关注更核心的风险判断和商业决策。

我们实现的这个系统，现在已经能处理公司大部分常规合同的版本比对，准确率和效率都得到了业务部门的认可。当然，它还在不断迭代中，比如我们正在尝试加入条款相似度匹配，以应对条款完全重写但语义不变的情况。

如果你也在为文档处理效率烦恼，不妨试试这个思路。从一个小而具体的场景开始，用RexUniNLU这样的通用模型快速验证想法，然后再逐步完善。希望我们的这次实战经验，能给你带来一些启发。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

基于RexUniNLU的智能文档比对系统开发实战