Kotaemon专利图纸检索：技术创新辅助分析-深圳市維司達科技有限公司

Kotaemon专利图纸检索：技术创新辅助分析

在智能硬件与高端制造领域，一个工程师常常面临这样的困境：手头有一个新设计的减速箱结构草图，却不知道类似的方案是否已被他人申请专利；或者想优化电机冷却流道，但翻遍关键词也找不到真正匹配的技术参考。传统专利检索依赖“关键词+分类号”的模式，在面对高度图形化的技术实现时显得力不从心——毕竟，“浮动支撑”可以有十几种画法，“双列角接触轴承”也可能被描述为“成对斜置滚珠轴承”。

正是在这种现实痛点的推动下，Kotaemon专利图纸检索系统应运而生。它不再把图纸当作背景图像处理，而是让机器真正“看懂”工程图中的结构逻辑，通过视觉语义理解、跨模态融合和拓扑化知识存储，重构了整个专利分析的工作流。

视觉特征提取：让机器读懂工程图的语言

一张标准的机械专利附图，远不只是线条和符号的集合。它是设计师用ISO规范书写的一封“技术信”，里面藏着装配关系、尺寸链、工艺意图。要让AI读懂这封信，第一步就是将图像转化为可计算的结构化表达。

这个过程不是简单的OCR识别，也不是通用图像分类，而是一套专为工程图纸定制的多阶段视觉解析流程：

预处理环节必须应对真实世界的数据噪声：扫描件模糊、PDF导出失真、背景水印干扰……通过自适应二值化与形态学滤波，系统能还原出清晰的线稿轮廓；
矢量结构恢复则利用边缘检测（如Canny）结合霍夫变换，精准提取直线段、圆弧和矩形框，甚至能区分实线（可见轮廓）与虚线（隐藏结构）；
更进一步地，使用U-Net或Mask R-CNN进行语义分割，自动标注“主视图”、“剖面A-A”、“局部放大区”等区域类型，帮助后续模块聚焦关键信息；
最后，所有几何元素被编码为统一的高维嵌入向量（embedding），使得两幅看似不同的图纸——比如一个是轴测图，另一个是正投影——只要核心结构相似，就能在向量空间中靠近。

import cv2 import numpy as np from tensorflow.keras.applications import VGG16 from sklearn.metrics.pairwise import cosine_similarity def extract_drawing_features(image_path): # 图像加载与灰度化 img = cv2.imread(image_path, cv2.IMREAD_GRAYSCALE) _, binary = cv2.threshold(img, 128, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU) # 边缘检测 edges = cv2.Canny(binary, 50, 150, apertureSize=3) # 霍夫直线与圆形检测 lines = cv2.HoughLinesP(edges, 1, np.pi / 180, threshold=100, minLineLength=50, maxLineGap=10) circles = cv2.HoughCircles(edges, cv2.HOUGH_GRADIENT, dp=1, minDist=20, param1=50, param2=30, minRadius=0, maxRadius=0) # 使用VGG16提取全局语义特征（需转RGB） model = VGG16(weights='imagenet', include_top=False, input_shape=(224, 224, 3)) color_img = cv2.cvtColor(cv2.imread(image_path), cv2.COLOR_BGR2RGB) resized_img = cv2.resize(color_img, (224, 224)) input_img = np.expand_dims(resized_img, axis=0) / 255.0 global_features = model.predict(input_img).flatten() return { 'edges': edges, 'lines': lines, 'circles': circles, 'global_embedding': global_features } # 计算两张图纸的相似度 feat1 = extract_drawing_features("patent_A.png") feat2 = extract_drawing_features("patent_B.png") similarity = cosine_similarity([feat1['global_embedding']], [feat2['global_embedding']])[0][0] print(f"图纸相似度: {similarity:.3f}")

这段代码虽然简洁，但它代表了一种混合策略的思想：传统CV负责底层图元提取，深度学习负责高层语义建模。实际系统中，还会引入专用训练的CNN骨干网络（如ResNet-50 on engineering drawings dataset），并在损失函数中加入结构一致性约束，从而提升对微小差异的敏感度。

更重要的是，这套方法打破了术语壁垒。例如，用户想找“带密封圈的旋转接头”，但不同国家专利中可能称为“shaft seal assembly”、“rotary union with O-ring”或直接无文字说明。只要结构一致，图像比对就能命中。

跨模态融合：不止于“搜图找图”

如果只做图像检索，那还只是解决了半个问题。现实中，用户的查询往往是混合形态的：一张手绘草图配上一句“类似这种弹簧压紧机构”；或是先输入一段文字描述，再上传一份竞品截图验证。

这就引出了Kotaemon的核心创新之一——跨模态检索融合机制。它的目标不是简单拼接结果，而是让图像、文本、分类号三种信号在一个统一空间内协同决策。

系统内部设有三个并行通道：
-图像通道处理上传的图片或草图，输出结构特征向量；
-文本通道使用BERT类模型解析自然语言查询，抽取技术动作（如“卡扣连接”、“径向限位”）、材料属性（如“铝合金壳体”）和功能关键词；
-元数据通道基于IPC/CPC分类码进行精确匹配，确保不偏离技术领域。

这三个通道的结果并不会简单加权平均，而是通过一个可学习的注意力机制动态调整权重。例如：

当用户上传一张齿轮箱剖面图时，系统自动判断当前以图像为主导，赋予其0.7权重；若同时输入“低噪音设计”，则文本通道权重上升至0.25；而若明确指定F16H1/22（行星齿轮组分类），元数据通道也会参与校准。

import torch import torch.nn as nn class CrossModalFusion(nn.Module): def __init__(self, embed_dim=512): super().__init__() self.image_encoder = VGG16Embedder() self.text_encoder = TextBERTEmbedder() self.classifier = nn.Linear(embed_dim * 3, embed_dim) self.attention_weights = nn.Parameter(torch.rand(3)) # [img, txt, meta] def forward(self, img_input, text_input, meta_input): img_feat = self.image_encoder(img_input) txt_feat = self.text_encoder(text_input) meta_feat = meta_input weights = torch.softmax(self.attention_weights, dim=0) fused = weights[0] * img_feat + weights[1] * txt_feat + weights[2] * meta_feat return fused criterion = nn.TripletMarginLoss(margin=1.0) optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)

该模型在训练阶段采用三元组损失函数，确保同一项专利的不同表示方式（如原文摘要、附图、分类号）在嵌入空间中彼此靠近，而不同技术则拉开距离。经过大规模专利数据训练后，系统能在模糊查询下仍保持较高召回率。

据IEEE Access 2023年的一项对比实验显示，此类跨模态方法相比单一文本检索，Top-5相关专利的命中率提升了约40%。尤其在“我说不清但你知道我想要什么”的场景下，表现尤为突出。

拓扑结构数据库：构建可推理的工程知识网络

如果说视觉特征提取是“感知层”，跨模态融合是“认知层”，那么专利拓扑结构数据库就是Kotaemon的“记忆中枢”。它不再只是存文件、建索引，而是把每张图纸拆解为“部件—连接—功能”的知识单元，并建立起可遍历的关系图谱。

想象这样一个问题：“找出所有采用‘外圈固定、内圈旋转’方式安装的深沟球轴承结构。”
传统检索几乎无法完成这项任务——因为大多数专利不会这样写，它们只会画出来。

但在Kotaemon的图数据库中，这个问题可以通过一次图遍历轻松解决：

MATCH (bearing:Component {type:"deep-groove-ball-bearing"}) -[r:INSTALLATION]->(mount:Structure) WHERE mount.outer_ring_fixed = true AND mount.inner_ring_rotating = true RETURN bearing.patent_id, bearing.patent_title

这是如何实现的？背后的构建流程包括：