news 2026/4/24 3:10:31

AI RAG 问答质量测评 Answer Correctness 指标详解

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI RAG 问答质量测评 Answer Correctness 指标详解

🔍 RAG 评估指标 Answer Correctness 详解

Ragas 框架中"答案正确性"评估指标的技术解读


💡 一句话概括

Answer Correctness 用“像不像”(语义相似度)“对不对”(事实准确度)两个维度,综合判断 AI 回答的质量。


一、两个核心维度

维度通俗理解使用工具
语义相似度两句话"长得像不像"——用词、表述方式的接近程度Embedding 模型
事实准确度两句话"事实是否一致"——核心信息有无遗漏或错误大语言模型

二、重点:事实准确度怎么算?

Ragas 不是让大模型直接说"对"或"错",而是采用拆解 → 比对 → 算分的三步流程:

📝 示例对比

AI 回答(answer)标准答案(ground_truth)
张伟是教研部负责大模型课程的同事张伟是教研部负责大数据方向的同事

步骤 1:拆成"观点清单"

用大模型把句子拆解为独立的事实陈述:

AI 回答拆成:["张伟是教研部的","张伟负责大模型课程"]标准答案拆成:["张伟是教研部的","张伟负责大数据方向"]

步骤 2:逐一比对,分类统计

观点分类含义
“张伟是教研部的”TP ✅两边都有,事实一致(True Positive)
“张伟负责大模型课程”FP ❌AI 说了,但标准答案没提 →瞎说(False Positive)
“张伟负责大数据方向”FN ⚠️标准答案有,但 AI 没说 →漏说(False Negative)

所有判断均由大模型完成


步骤 3:计算 F1 分数

F1 = TP / [TP + 0.5 × (FP + FN)] = 1 / [1 + 0.5 × (1 + 1)] = 0.5 (满分 1)

三、最终得分汇总

Answer Correctness = 0.25 × 语义相似度 + 0.75 × 事实准确度
权重说明
0.25语义相似度:“像不像”
0.75事实准确度:“对不对”← 权重更高

设计意图:避免 AI 用"正确的废话"刷高分,必须事实准确才能得高分


四、完整流程图

输出层

汇总层

评估层

输入层

AI 回答
(answer)

标准答案
(ground_truth)

① Embedding 模型
算语义相似度(像不像)

② 大语言模型
拆解观点 → 比对 → 算F1(对不对)

③ 加权汇总
0.25×① + 0.75×②

Answer Correctness
最终得分


🔑 关键记忆点

要点说明
语义相似度“表面像不像”——用词相近,但可能事实错误
事实准确度“底层对不对”——拆解观点逐一核对,更严谨
为什么用大模型?判断"大模型课程"和"大数据方向"是否冲突,需要理解语义,不是简单字符串匹配
F1 分数的意义同时惩罚"瞎说"(FP)和"漏说"(FN),鼓励精准且完整的事实陈述
权重设计事实准确度 75% > 语义相似度 25%,确保"内容正确"优先于"表述相似"

(END)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/24 3:10:29

从生产一线看:显示屏如何保障塑身仪器交期与稳定

作为仪器设备厂商的生产人员,我们每天都要面对一个核心问题:如何让塑身仪器的生产、配件供应、整机交付形成高效闭环。在一站式生产体系中,显示屏作为人机交互核心部件,其适配性直接影响交期可控性与设备运行稳定性。结合多年生产…

作者头像 李华
网站建设 2026/4/24 3:10:19

Prompt:反思机制 + 结构化输出,让 AI 成为你的 “代码老师“

这两个是 Prompt 工程的终极杀招,能让 AI 从 "只会写代码" 变成 "会写代码 会自己找 bug 会教你怎么写"。我会先讲透原理,然后给你一个经过上千次验证、能自我纠错的代码生成 Prompt,它不仅能生成高质量代码&#xff0…

作者头像 李华
网站建设 2026/4/24 3:07:22

黑客利用 macOS 扩展属性传播新型 RustyAttr 木马

黑客被发现正滥用 macOS 文件的扩展属性来传播一种新的木马,研究人员将其称为 RustyAttr。 威胁分子将恶意代码隐藏在自定义文件元数据中,并使用诱饵 PDF 文档来帮助逃避检测。这项新技术类似于 2020 年 Bundlore 广告软件将其有效负载隐藏在资源分支中…

作者头像 李华