news 2026/6/17 16:59:36

Goedel-Prover-V2:通过自我修正和逐步数据合成实现高效自动定理证明的新发展

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Goedel-Prover-V2:通过自我修正和逐步数据合成实现高效自动定理证明的新发展

概述

本文提出了自动定理证明(ATP)的新底层模型 Goedel-Prover-V2。

以往的研究需要超大模型(数百个 B 级参数)和庞大的推理计算,这限制了开源模型的性能。

因此,作者引入了一种新颖的学习方法和数据生成策略,以实现高效和高性能的定理证明。

具体来说,他们采用了 “脚手架式数据合成”(生成难度逐步调整的合成问题)、“验证者指导下的自我修正”(利用精益编译器的反馈)和 “模型平均”(保持输出多样性)。平均化 "来保持输出的多样性。

结果,即使只有 32B 大小的模型,也超越了传统的 671B 模型,成功解决了
MiniF2F 基准中的 88.1%(自校正后为 90.4%)和 PutnamBench 中的 86 个问题,为开源模型设定了新的高标准。开源建模达到了新的最高水平。

这表明,无需依赖庞大的计算资源,就能高效地进行高级数学推理。

建议的方法

拟议方法的核心是将 "自我修正 "和 "逐步数据合成 "与使用长思维链的定理证明融合在一起。

首先,"验证器指导下的自我修正 "是一种机制,模型生成的证明通过精益编译器运行,精益编译器分析错误信息并生成修改版本。
这样,用户就能从错误中吸取教训,完成证明,就像人类改进证明一样。

接下来,脚手架数据合成会合成未解决的子问题和从难题的失败尝试中获得的更简单的变体,为模型提供高效的学习信号。
这样,就能利用难度等级进行有效的训练。

此外,还引入了模型平均法,对不同训练阶段获得的模型进行加权平均,以提高性能,同时防止遗漏变体。
最后,我们设计了一个连贯的学习管道,将 SFT(监督微调)、RL(强化学习)和模型平均化结合在一起,从而产生了高效、稳健的定理证明模型。

实验

主要在 MiniF2F 和 PutnamBench 上进行了评估,结果证实,所提出模型的性能明显优于传统方法。

在MiniF2F(高中数学-国际数学奥林匹克水平)Goedel-Prover-V2-32Bはpass@32で88.1%,自校正模式达到90.4%,超过了DeepSeek-Prover-V2-671B。
此外,在 PutnamBench(大学数学竞赛题)中,它成功解决了 86 道题,比之前的 47 道题有了显著提高。

甚至在 MiniF2F 中,8B 模型的表现也优于 671B 模型,这有力地证明了它的效率。

此外,自我修正的效果也得到了量化证明,在 pass@32 的基础上平均提高了 2 分。

缩放分析也证实了 “高样本效率”,即只需生成少量样本即可实现高精度。

这些实验结果表明,即使对于小规模的模型,所提出的方法也能实现最先进的定理证明能力,支持其作为未来数学人工智能研究的基础。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 18:10:20

springboot社区医院信息平台(11519)

有需要的同学,源代码和配套文档领取,加文章最下方的名片哦 一、项目演示 项目演示视频 二、资料介绍 完整源代码(前后端源代码SQL脚本)配套文档(LWPPT开题报告)远程调试控屏包运行 三、技术介绍 Java…

作者头像 李华
网站建设 2026/6/17 9:53:48

AI元人文构想的理论构建过程与深层意义分析(二)

AI元人文构想的理论构建过程与深层意义分析 在人工智能技术掀起全球变革的浪潮中,一个名为“AI元人文构想”的原创理论框架,以极为独特的构建方式与实践路径,为我们重新思考人机关系、文明演进提供了全新视角。这一由独立研究者岐金兰在2025年…

作者头像 李华
网站建设 2026/6/17 2:56:13

好写作AI:不仅仅是语法检查,在深层学术构思上的功能突破

当大多数人还在关注AI能否纠正标点时,先进的智能写作工具已经将目光投向更深处——如何理解并参与学术思想的构建本身。好写作AI官方网址:https://www.haoxiezuo.cn/传统写作辅助工具的核心功能边界,往往止步于“语言的正确性”。然而&#x…

作者头像 李华
网站建设 2026/6/15 12:49:36

第六十四篇-ComfyUI+V100-32G+运行Z-Image-Turbo+GGUF

环境 系统:CentOS-7 CPU : E5-2680V4 14核28线程 内存:DDR4 2133 32G * 2 显卡:Tesla V100-32G【PG503】 (水冷) 驱动: 535 CUDA: 12.2 ComfyUI version: 0.4.0 ComfyUI frontend version: 1.34.8系统软件信息 系统信息 OS linux Python Ve…

作者头像 李华
网站建设 2026/6/16 13:53:09

足球视频检测数据集介绍-160张图片-智能体育转播 运动数据分析 自动化视频剪辑 裁判辅助系统 青训技术分析 虚拟现实体验

📦点击查看-已发布目标检测数据集合集(持续更新) 数据集名称图像数量应用方向博客链接🔌 电网巡检检测数据集1600 张电力设备目标检测点击查看🔥 火焰 / 烟雾 / 人检测数据集10000张安防监控,多目标检测点…

作者头像 李华