news 2026/6/13 20:10:54

First Proof项目二批评测结果出炉:7道题AI解答达发表标准,各系统表现与成本差异大

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
First Proof项目二批评测结果出炉:7道题AI解答达发表标准,各系统表现与成本差异大

【导语:陶哲轩主导的First Proof项目第二批评测结果公布,此次评测提高标准并引入双盲同行评议机制,4套AI系统参与答题,部分题目AI给出新颖解法,各系统在解题能力、成本和耗时上差异明显,后续8 - 10月将开展第三批评测。】


评测升级:引入双盲同行评议

本次评测延续选取10道前沿研究级数学新题让AI系统作答的核心规则,相比第一次评测进一步提高标准。引入双盲同行评议机制,由项目组统一操作,30位数学专家像期刊审稿一样盲审打分,评审只能看到证明稿件,不知作者是AI还是人类,证明按人类数学论文标准分为四档。

AI系统表现:各有优劣

参与评测的4套AI系统各有特点。苏黎世联邦理工的System A表现亮眼,在P5随机偏微分方程题中跳出人类常规思路,推导出更强结论;在第三题离散概率、第九题代数组合中,部分AI也给出原创论证。面对有成熟文献参考的题目,AI优势明显。

但各系统也存在不足,OpenAI原生ChatGPT 5.5 Pro原创能力偏弱;普林斯顿团队系统投入产出比低;苏黎世联邦理工团队系统成本高;陶哲轩所在UCLA团队系统虽稳定性尚可,但未实现能力突破。

成本与耗时:差距悬殊

评测统计了四套AI的调用成本与耗时,云服务器总成本不足35美元可忽略不计,但模型调用费用差距大。OpenAI原生ChatGPT 5.5 Pro性价比最高,10道题总花费117美元,运行5.8小时耗时最短;普林斯顿团队系统花费1014美元、运行7.8小时;苏黎世联邦理工团队系统总费用达3186美元,运行22.9小时;UCLA团队系统成本最高,共计4799美元,运行23.1小时。

后续安排:第三批评测待启

陶哲轩认为本轮整体表现未达预期,现存问题将作为后续优化方向。后续8 - 10月将开展First Proof项目第三批正式评测,评测规则沿用第二批次标准。

编辑观点:First Proof项目评测为AI数学能力提供了严格检验,虽本次未达预期,但各系统亮点也展现了AI潜力,后续评测值得关注其改进成果。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/13 20:05:59

加入Apple Developer Program 避坑指南

当你准备好构建更多高级功能并分发你的 App 时,可以 加入 Apple 开发者项目,以便在 App Store 上进行分发。 🎯 第一步:先定账户类型(这个选错最麻烦) 类型年费适合谁App Store显示的名称团队协作个人账户…

作者头像 李华
网站建设 2026/6/13 20:00:03

如何彻底解决Windows图形驱动兼容性问题:Mesa3D终极配置指南

如何彻底解决Windows图形驱动兼容性问题:Mesa3D终极配置指南 【免费下载链接】mesa-dist-win Pre-built Mesa3D drivers for Windows 项目地址: https://gitcode.com/gh_mirrors/me/mesa-dist-win 你是否曾在Windows上运行经典游戏或专业图形软件时遭遇OpenG…

作者头像 李华
网站建设 2026/6/13 19:53:04

终极指南:如何在安卓手机上为星露谷物语安装SMAPI框架和MOD

终极指南:如何在安卓手机上为星露谷物语安装SMAPI框架和MOD 【免费下载链接】SMAPI-Android-Installer SMAPI Installer for Android 项目地址: https://gitcode.com/gh_mirrors/smapi/SMAPI-Android-Installer 还在为安卓版星露谷物语无法使用MOD而烦恼吗&a…

作者头像 李华
网站建设 2026/6/13 19:52:54

LOIC压力测试工具:从网络安全新手到专家的完整成长路径

LOIC压力测试工具:从网络安全新手到专家的完整成长路径 【免费下载链接】LOIC Deprecated - Low Orbit Ion Cannon - An open source network stress tool, written in C#. Based on Praetoxs LOIC project. USE ON YOUR OWN RISK. WITHOUT ANY EXPRESS OR IMPLIED …

作者头像 李华
网站建设 2026/6/13 19:52:21

ice连接

#include <Ice/Ice.h>//创建一个全局的 Ice 通信器指针&#xff0c;供信号处理回调使用 Ice::CommunicatorPtr globalCommunicator;// 信号发生时的回调函数 void signalHandler(int) {if (globalCommunicator) {std::cout << "收到中断信号&#xff0c;正在关…

作者头像 李华