news 2026/4/23 13:03:46

FACTS基准套件:系统性评估大语言模型事实性的新方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
FACTS基准套件:系统性评估大语言模型事实性的新方法

FACTS基准套件:系统性评估大语言模型的事实性

大语言模型正日益成为跨多种使用场景的主要信息交付来源,因此确保其回复的事实准确性至关重要。为了持续改进这一行业性挑战上的表现,我们必须更好地理解模型在哪些使用场景中难以提供准确回复,并更有效地衡量模型在这些领域的事实性表现。

今日发布的FACTS基准套件

今日,我们与Kaggle合作推出FACTS基准套件。该套件基于我们之前开发的FACTS Grounding Benchmark,扩展了三个新的事实性基准,包括:

  • 参数化基准:衡量模型在事实性问答用例中准确访问其内部知识的能力。
  • 搜索基准:测试模型利用搜索作为工具来检索信息并正确综合信息的能力。
  • 多模态基准:测试模型基于输入图像以事实正确的方式回答提示的能力。

同时,我们更新了原始的FACTS基准,推出了基准-v2,这是一个扩展的基准测试,用于评估模型在给定提示的上下文中提供有根据的回答的能力。

每个基准都经过精心设计,总计提供了3513个示例,并于今日公开发布。与之前的发布类似,我们遵循行业标准做法,保留一部分评估集作为私有集。FACTS基准套件评分(或称FACTS评分)的计算方式是在四个基准测试中,对公共集和私有集取平均准确率。Kaggle将负责管理FACTS基准套件,包括持有私有测试集、在基准上测试领先的LLMs,并将结果托管在公共排行榜上。关于FACTS评估方法的更多细节可在技术报告中找到。

基准测试概览

参数化基准

FACTS参数化基准评估模型在无需外部工具(如网络搜索)帮助的情况下准确回答事实性问题的能力。该基准中的所有问题都是“琐事风格”的问题,源于用户兴趣,可以通过维基百科(LLM预训练的标准来源)来回答。最终基准包括一个1052项的公共集和一个1052项的私有集。

[分布图:上下文领域分布(左图)和答案类型分布(右图),占参数化基准问题总数的百分比。]

来自公共集的一个典型提示会要求模型回答一个关于小众主题的简单问题,例如:“谁在《The Rockford Files》主题曲中演奏口琴?”

搜索基准

相比之下,FACTS搜索基准评估模型使用网络搜索工具来回答问题的能力。该基准旨在对即使能访问网络的LLMs也具有挑战性,通常需要顺序检索多个事实来回答单个查询。相同的网络搜索工具将提供给所有模型使用,确保在隔离测试模型能力时,不受自定义网页检索设置等因素的干扰。FACTS搜索基准包含一个890项的公共集和一个994项的私有集。

[分布图:上下文领域分布(左图)和用户请求的任务类型分布(右图),占搜索基准提示总数的百分比。]

来自公共集的以下示例被包含在内,因为它需要从多个网页检索信息:“在1960年夏季奥运会上击败Vazik Kazarian的英国拳击手的出生年份、在同一届奥运会上参加男子轻中量级比赛的摩洛哥拳击手的出生年份,以及参加了1960年和1964年两届夏季奥运会的丹麦拳击手的出生年份,这三个年份的总和是多少?”

多模态基准

FACTS多模态基准评估模型根据基于图像的问题生成事实准确文本的能力,这是现代多模态系统的一项关键能力。

该任务需要整合视觉理解能力(即准确解释并关联来自视觉输入的信息),并利用其内部或“参数化”的世界知识。评估框架旨在确保回答既正确又提供了所有必要信息。该基准包含一个711项的公共集和一个811项的私有集。

[分布图:图像来源分布(左图)和问题类别分布(右图),占多模态基准的一部分。]

例如,以下来自多模态基准公共集的图片附带了提示:“这个动物属于哪个属?”

[图片:一张沙漠自然主义者拍摄的Racta apella图片,采用CC BY 4.0许可。]

评估结果

我们评估了领先的LLMs在FACTS基准套件上的表现,该套件包含了更新后的FACTS基准-v2。

下表列出了15个领先的模型及其总体FACTS得分(随后是其在四个独立基准——、多模态、参数化和搜索——上的得分细分)。

[表格:展示15个领先模型的总体FACTS得分及各分项得分的表格。]

Gemini 3 Pro在整体表现上领先,FACTS评分为68.8%。特别是,我们看到从Gemini 2.5 Pro到Gemini 3 Pro在搜索和参数化部分有显著改进,在FACTS搜索上的错误率降低了55%,在FACTS参数化上降低了35%。总体而言,FACTS多模态得分最低。所有被评估模型的总体准确率都低于70%,表明未来还有相当大的进步空间。

除了FACTS基准套件,Gemini在事实性方面的改进也反映在另一个事实性基准SimpleQA Verified上,从Gemini 2.5 Pro的54.5%准确率提升到Gemini 3 Pro的72.1%。SimpleQA Verified测试LLMs在简短回答上的参数化知识。

展望未来

虽然LLM事实性仍是一个持续研究的领域,但FACTS基准套件和Gemini 3 Pro的结果代表了某中心长期致力于使信息普遍可访问和有用的承诺。我们希望这项工作能鼓励对LLM事实性进行更深入的研究,从而为依赖它们的人们带来更好、更准确的模型和产品。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 0:17:21

支持粤语日韩英!SenseVoiceSmall多语言识别实战体验

支持粤语日韩英!SenseVoiceSmall多语言识别实战体验 你有没有遇到过这样的场景:一段粤语客服录音,听懂了字面意思,却抓不住客户语气里的不耐烦;一段日语培训视频,文字转写准确,但完全漏掉了学员…

作者头像 李华
网站建设 2026/4/23 12:18:50

Qwen3-Embedding-0.6B在金融舆情监控中的落地实践

Qwen3-Embedding-0.6B在金融舆情监控中的落地实践 1. 引言:为什么金融场景需要专属嵌入模型 1.1 金融舆情的特殊挑战 你有没有试过用通用嵌入模型分析一条财经新闻?比如“央行宣布下调MLF利率10个基点,市场预期后续LPR或同步调降”——这句…

作者头像 李华
网站建设 2026/4/23 12:24:29

Qwen-Image-Edit-2511 vs 老版本:角色一致性改进实测对比

Qwen-Image-Edit-2511 vs 老版本:角色一致性改进实测对比 Qwen-Image-Edit系列模型正快速演进——2511版本不是一次小修小补,而是一次面向真实图像编辑场景的深度优化。如果你曾为“改完衣服,人脸就变样”“换了个背景,主角神态就…

作者头像 李华
网站建设 2026/4/23 12:21:47

树莓派初体验指南:从选购到启动操作指南

以下是对您提供的博文《树莓派初体验指南:从选购到启动操作指南——嵌入式入门工程实践深度解析》的专业级润色与重构版本。本次优化严格遵循您的全部要求:✅ 彻底消除AI生成痕迹,全文以一位有十年嵌入式开发教学经验的工程师口吻自然书写✅ …

作者头像 李华
网站建设 2026/4/11 18:36:01

Z-Image-Turbo体验报告:适合哪些应用场景?

Z-Image-Turbo体验报告:适合哪些应用场景? 在AI图像生成领域,“快”和“好”长期是一对矛盾体——要高清就得等,要秒出就得妥协细节。而Z-Image-Turbo的出现,像一次精准的工程破局:它不靠堆算力&#xff0…

作者头像 李华
网站建设 2026/4/23 12:24:20

零基础入门AI绘画:用麦橘超然镜像轻松实现赛博朋克风出图

零基础入门AI绘画:用麦橘超然镜像轻松实现赛博朋克风出图 1. 为什么赛博朋克风是新手的第一块“敲门砖” 你有没有在深夜刷到过这样的画面:雨丝斜织,霓虹在湿漉漉的柏油路上流淌成光带;全息广告悬浮半空,飞行器掠过摩…

作者头像 李华