news 2026/6/21 8:24:23

CompassVerifier:彻底改变 LLM 解决方案验证的新基准和稳健模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CompassVerifier:彻底改变 LLM 解决方案验证的新基准和稳健模型

总结

本文的重点是 “答案验证”,它对于评估 LLM 的性能和设计强化学习中的奖励至关重要。

传统的验证方法主要使用正则表达式进行简单的字符串匹配,或使用通用 LLM 作为决策者。

然而,前者需要定制规则,缺乏灵活性,而后者则需要针对具体任务进行及时调整,极易产生错觉和误判。

另一个制约因素是缺乏能够全面评估复杂问题和各种解决方案格式的综合基准。

为了解决这些问题,作者建立了一个名为 VerifierBench 的新评估平台,并开发了一个名为 CompassVerifier 的轻量级高精度验证模型。
这实现了包括数学、知识和推理在内的多学科答案验证,并提出了一个强大的框架,不仅能准确识别错误答案,还能识别无效答案。

建议的方法

作者提出的方法包括两大支柱。

第一个支柱是 VerifierBench。
这是从 50 多个模型和 15 个数据集中收集的 130 多万条回答的基准,通过多阶段自动验证和专家注释进行维护。除了正确和不正确的回答外,无效回答(如不完整、重复或被拒绝的回答)也会被清晰标注,从而实现比以往更精确的性能评估。

第二个是 CompassVerifier。

该模型使用 VerifierBench 作为其学习基础,并通过三个扩展进行了增强。

这些扩展包括:(1) 错误模式驱动的对抗扩展,以提高对错误分类的复原能力;(2) 复杂公式扩展,以提高对各种符号的等价判断能力;(3) 通用性扩展,以提高对不同任务和提示格式的适应能力。

这些创新使 CompassVerifier 比传统的基于正则表达式和基于 LLM 的验证器更加准确和稳健。

实验

在实验中,CompassVerifier 在 3B 到 32B 的参数范围内进行训练,并使用 VerifierBench 进行评估。

与通用 LLM(如 GPT-4o 和 DeepSeek-V3)以及现有专用验证器 xVerify 和 Tencent-RLVR 进行了比较。

结果,CompassVerifier 在所有领域都获得了新的 SOTAs。其中,32B 模型的准确率超过 90%,F1 分数超过 87%,明显高于同等规模的 LLM 和现有验证器。

此外,在按答案形式进行的评估中,虽然多选题获得了高分,但顺序答案和包含多个小问题的答案难度更大,传统模型的 F1 分数只有 40 分或更低,而 CompassVerifier 始终保持着较高的准确率。
此外,CompassVerifier 在强化学习中作为奖励模型的有效性也得到了验证,与基于规则的验证器相比,使用 CompassVerifier 进行的训练显示出更高的收敛效率和性能改进。

这证明,该模型不仅可以作为评估平台,还可以作为指导学习的奖励信号。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/17 2:03:26

锐捷RGSP | WLAN原理和部署

一、WLAN概述 1. WLAN背景与定义 WLAN是Wireless Local Area Network的缩写,指应用无线通信技术将计算机设备互联起来,构成可以互相通信和实现资源共享的网络体系。针对有限局域网的一些缺点,如线路成本、移动性差等。对组网便捷性和移动性的要求,促成了WLAN的技术诞生。…

作者头像 李华
网站建设 2026/6/20 20:58:00

用 .NET 最小化 API 构建高性能 API

用 .NET 最小化 API 构建高性能 API 引言 在当今快速发展的应用开发领域,构建快速、可扩展且可维护的API已成为现代应用的关键要求。随着.NET技术的不断演进,微软推出了最小化API(Minimal APIs)这一创新架构,旨在简化API开发流程同时显著提…

作者头像 李华
网站建设 2026/6/19 17:17:08

Python 基础语法完全指南从零开始掌握变量类型运算符与输入输出

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 持续学习,不断…

作者头像 李华
网站建设 2026/6/20 20:42:56

EmotiVoice语音合成能否模仿特定明星音色?法律风险提示

EmotiVoice语音合成能否模仿特定明星音色?法律风险提示 在短视频平台每天生成数百万条AI配音内容的今天,一个普通人只需上传一段5秒音频,就能让AI用周杰伦的声音唱新歌、用撒贝宁的语气讲冷笑话——这并非科幻场景,而是基于如Emot…

作者头像 李华
网站建设 2026/6/20 2:39:27

医院急诊|基于java+ vue医院急诊管理系统(源码+数据库+文档)

医院急诊 目录 基于springboot vue医院急诊系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue医院急诊系统 一、前言 博主介绍:✌️大…

作者头像 李华
网站建设 2026/6/20 8:18:19

智慧养老院|基于java+ vue智慧养老院管理系统(源码+数据库+文档)

智慧养老院 目录 基于springboot vue智慧养老院系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue智慧养老院系统 一、前言 博主介绍&#xff1a…

作者头像 李华