news 2026/4/23 14:40:16

会议论文A RAG Approach for Generating Competency Questions in Ontology Engineering

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
会议论文A RAG Approach for Generating Competency Questions in Ontology Engineering


此文章发表在MTSR2024会议,主题和能力问题有关,另外结合了RAG。

作者信息

荷兰的机构,文章12页。

要点1

我在2024年想到所谓需求驱动,也是结合能力问题的。当时觉得能力问题像是上个世纪的产物,一种古老的验证手段,但我的文章经过24年6月投稿,25年6月一审被拒,现在改投一审结果未出。这段时间,已经看到不少篇结合LLM做问题能力相关工作的文章了。
这篇文章说的是能力问题的生成,我当时想的是结合能力问题库做自动化验证。其实我把问题想简单了,自动化验证不是查询不报错就行的,而且还要查询结果符合预期。

要点2

有关其中的BigCQ参考文献,该作者也提到了BigCQ,表示是最大的CQ模板库。

但这里的CNL有疑问,我当时选取BigCQ中的一些句子举例,但审稿人表示这不是受控自然语言。或许BigCQ中存在一些常识性错误?

要点3

文中提及一种验证方法,针对有既定本体的知识图谱,从本体中提取能力问题,这种能力问题是形式化的,可以转为SPARQL进行查询验证。但这种验证,其实是不合适的,类似于拿自己写的答案作为标准,然后来评估自己。

要点4

方法流程,文章显示了简单的三步走:数据索引、数据获取、生成。从图中看不出有什么特殊设计,那就看文字。

文字表示,首先选择合适的paper作为知识库很重要,然后他设置了三个原则。相当于把这些文章作为RAG的外挂向量库,算是比较直接的想法。
作者还把文章数量作为一个超参数,另外还有大模型的温度和所选取的大模型作为参数。
随后就是提示词工程了,这也没啥好深入说的,还是提示词模板那一套东西(话说大家的想法都差不多啊,应用层面的东西就是这样,太容易撞车了)。

要点5

如何说明它生成的能力问题是好的?
这就是实验验证部分了,看之前先想一想,怎样算是好的能力问题?

  1. 专家审核一下,数量不多的话,可以人工判断哪些能力问题是有实际意义的;
  2. 文中有提到他们生成的是非正式能力问题,那就不是很容易直接转换成SPARQL查询的那种,但要实际验证,必须要想办法把它们转换成SPARQL查询,验证得到预期的结果;
  3. 验证能力问题同样也是验证本体,这里给人的感觉是能力问题是由本体衍生的,而不像我之前做的(能力问题可以用于验证,但它更是需求分析的步骤)。
    那这个文章是怎么做的,他做了两个实验。
  4. 针对需求工程,KG-EmpiRE,通过三个领域专家根据一篇关于研究人员如何开展RE实证研究的现状和发展,手工推导出77个CQ进行评估;
  5. 构建人机交互中的核心参考问题HCIO,针对15个CQ进行评估。
    这里还是看不出评估方法。
要点6

使用precision来评估CQ质量,把生成的CQ质量和专家设计的CQ进行对比。这种感觉还是gold standard,那种把本体和reference本体对比的方法。
在计算所谓precision之前,先用余弦相似度计算了一波。

这让人有些困惑,首先觉得生成的CQ的数量就不一定和专家写的CQ对得上,其次,怎么知道哪两个CQ之间来计算相似度呢?一开始就设定了成对的CQ?
再然后,怎么从相似度到precision的呢?作者给了公式。

这里说明了,TP和FP的含义。比较简单粗暴,意思是有效的生成CQ和无效的生成CQ。
随后,作者还弄了一个consistency的验证,这个验证是来判断CQ生成的稳定性的。大致意思是,我换一些参数,生成的CQ是不是差不多(感觉这个算是对所谓提示词模板的考验吧)?

要点7

说到对比实验了,和谁比?
作者和所谓的Zero-shot比,可以理解为让LLM自由发挥,这个比较好理解,就是体现RAG对CQ生成效果的提升(大概率是有效的,有约束就是比自由发挥厉害一些)。
另外就是N_paper超参数变化的比较,这也是个线性思维,一般来说,外挂库越大,效果就应该越好,事实上基本呈现的就是这个趋势。
最后还有一个绿色的柱子,他表示这个visionary paper给出了最好的precision。

要点8

第二个对比实验,即consistency的实验。作者使用了余弦相似度的标准差来看稳定性。
这里讨论了参数对CQ生成的影响,例如温度参数对任务表现的影响不大。

要点9

从实验部分来看,比较数据来自zero-shot,不同的数据集,不同的参数,但是没有和其他人的方法的比较。我觉得可能是不好比,这种工作不是热点工作,但这样的比较就不太容易被所谓审稿人认可。
但我觉得这样的工作仍然是有意义的,算是个应用测试,能想到去测参数对consistency的影响就很不错了。

要点10

虽然文章涉及了对参数的讨论,但是这类工作的出发点都是找一个老问题,拿大模型来试试,看看效果如何?我之前也是这么想的,所以这类问题容易被人抢先做。看今年的ISWC上的文章,有不少都是借用LLM,老树开新花的。

要点11

回头看,我之前写的文章似乎更没啥意义了。以后再有写文章的需求,得先多了解一些前沿技术,拓宽视野,然后再去考虑可做的点。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 12:11:25

高效测试:从理论到实践的12个关键技巧

一、测试思维重塑 场景化测试设计 通过用户旅程地图还原真实使用场景,建立“用户-功能-数据”三维测试模型。例如电商下单流程需覆盖:正常下单、库存不足、重复提交、支付超时等15个核心场景。 缺陷预防优先于缺陷发现 在需求评审阶段介入,…

作者头像 李华
网站建设 2026/4/23 12:15:05

MATLAB环境下基于时序与马尔可夫链蒙特卡罗方法的合成数据生成技术

MATLAB环境下基于时序蒙特卡罗方法的合成数据生成 基于马尔可夫链蒙特卡罗方法的合成数据生成最近在帮实验室做时间序列分析的时候,发现用蒙特卡罗方法生成合成数据真是个好用的工具。特别是基于马尔可夫链的这种,特别适合模拟存在状态转移的场景。咱们直…

作者头像 李华
网站建设 2026/4/23 13:26:07

先扔个完整代码镇楼(波士顿房价预测实战)

CatBoost-shap集成模型中的一种,本项目用在了回归问题上,并对模型和变量采用shap进行解释分析 Python代码,自带数据集,可以直接运行,代码实价,联系 所有图所见即所得,只会更多from catboost imp…

作者头像 李华
网站建设 2026/4/17 17:58:29

基于SpringBoot的宠物社交与健康管理平台的设计与实现

课题背景近年来,随着社会经济的发展和人们生活水平的提高,宠物已成为许多家庭的重要成员,宠物行业也随之迎来快速增长。根据市场调研数据,全球宠物市场规模持续扩大,预计未来几年仍将保持较高增速。在中国,…

作者头像 李华
网站建设 2026/4/22 17:36:18

Langchain-Chatchat构建行业术语词典提升专业度

Langchain-Chatchat构建行业术语词典提升专业度 在医疗、法律、金融等高专业门槛的行业中,一个AI助手若把“心肌梗死”理解成“心情不好”,或将“无因管理”解释为“没人管的事情”,显然无法被接受。尽管当前大型语言模型(LLM&am…

作者头像 李华