news 2026/6/10 15:15:06

大模型三类分类测评指标梳理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型三类分类测评指标梳理

大模型整体分类:按模型能力分成判别型、生成型、推理型 3 大类,企业选型时依据业务场景对应查看测评指标,用来横向对比各大模型优劣。

一、判别型大模型

传统 AI:分类 / 打分 / 预测,输出类别 / 数值

定位

多用于风控识别、内容审核、疾病筛查、垃圾邮件分类等,输出固定分类结果测评核心:分类结果准不准

四大核心指标 + 释义、公式逻辑、适用场景

表格

指标核心关注点通俗解释短板 & 适用场景
Accuracy 准确率全局整体正确率

正确样本 ÷ 全部样本,数值越高整体效果越好

(整体猜对的总数占全部)

缺陷:数据不均衡时失真例:95% 样本为 A 类,无脑全判 A 就能拿到 95% 高准确率,但实际无效
Precision 精确率不误判、不冤枉负样本(少 FP 假正例)

模型标记为正例的样本里,真正是正例的占比公式:举例:查出 50 封垃圾邮件,10 封误判正常邮件→40/50=80%

(抓回来的人里,真小偷占比)

内容封禁、司法判别场景优先看,避免误封合规内容、错判无罪样本FP:负样本错判成正样本(正常邮件标垃圾)
Recall 召回率不漏检、不错放正样本(少 FN 假负例)

所有真实正例中,被模型成功找出来的占比公式:

(全部真小偷里,被抓到的比例)

医疗诊断、金融反欺诈、灾害预警首选FN:真实正例错判成负样本(患病被判健康、盗刷判正常交易)
F1-Score精确率 & 召回率综合平衡值

精确率、召回率调和平均值,公式:数值越高两项指标越均衡

(精准和召回的综合成绩单)

样本不均衡场景刚需:罕见病筛查、垃圾邮件、诈骗识别案例:99 封正常 + 1 封垃圾,全判正常→准确率 99%,但召回、精确率、F1 全为 0,直接暴露模型缺陷
  • 真实违规 (1)、模型判违规 (1) TP
  • 真实违规 (1)、模型误判正常 (0) FN
  • 真实正常 (0)、模型判正常 (0) TN
  • 真实正常 (0)、模型误判违规 (1) FP

选型快速选择口诀

  1. 怕漏检(癌症筛查、反诈、预警)→优先 Recall 召回率
  2. 怕误判(内容封禁、风控处罚)→优先 Precision 精确率
  3. 样本分布悬殊、需要综合平衡→优先 F1 分数

二、生成型大模型(文案 / 对话 / 总结,输出自然文本)

定位

产品智能客服、文案生成、知识库问答(RAG),测评核心:输出文本质量、流畅度、多样性

三大测评维度

  1. 3H 原则(文本质量顶层标准)
    • Helpfulness 有用性:回答贴合用户提问、能解决实际需求
    • Honesty 真实性:不编造虚假信息、不胡说杜撰
    • Harmless 无害性:无违规、偏见、不良引导内容
  2. 通用文本量化指标(算法指标):衡量语句通顺、语义贴合度(如 BLEU、ROUGE 等)
  3. 企业 RAG 专属指标:面向知识库问答场景,重点考核引用来源准确性、幻觉概率、召回知识库原文精准度

三、推理型大模型(数学 / 逻辑 / 代码 / 复杂计算题,侧重逻辑推导)

定位

数理解题、代码编写、复杂业务逻辑推演,测评核心:推理逻辑严谨性、最终答案正确率

两大核心指标

  1. Pass@k 通过率多用于数学、代码测评:同一个题目给模型 k 次作答机会,任意一次答对即算该题通过;通过率越高,模型容错与解题能力越强。
  2. CoT Consistency 思维链一致性重复多次提问同一问题,若模型多轮推理思考路径不一样,但最终答案统一,代表模型逻辑稳定、不会前后自相矛盾。

「量化 CoT 执行得好不好、思考深不深」的过程指标

  • CoT 思维链:强制模型先写「分步思考、分析、推导」,再出答案 → 必然拉高:思考长度、膨胀率、推理耗时、纠错次数
  • 逐项对应:
  1. latency 延迟CoT 会显著增加推理 token 量 →延迟变长、显卡负载升高。 同硬件下:CoT 模式 latency 远大于普通问答。

  2. reasoning_len 思考量CoT 的核心就是拉长显式思考过程→ reasoning_len 大幅上升; CoT 越细致、分步越多,思考长度越大。

  3. backtrack_count 纠错力(回溯次数)只有有完整思考过程,模型才会出现「想错→发现→修正」。

    • 无 CoT 直答:几乎没有回溯,backtrack_count≈0
    • 复杂问题 + CoT:思考链条变长,更容易触发逻辑自查、推翻前文 → 回溯次数显著增加 结论:CoT 是观测纠错力的前提
  4. expansion_ratio 推理膨胀率公式:膨胀率 = 推理字数 / (最终答案字数+1)CoT 把中间推理内容显性输出,分子(推理字数)暴增,分母(最终答案)不变 / 变化很小 →CoT 模式下膨胀率天然大幅升高。 补充:

    • 高难度题 + 强 CoT → 膨胀率极高(大量推演、试错、纠错)
    • 简单题 + CoT → 膨胀率中等(简单走流程,无深度推演)

总结:

  1. 做分类、风控、打分业务→判别模型:按需选用准确率 / 精确率 / 召回率 / F1
  2. 做对话、写文案、知识库问答→生成模型:3H + 文本质量 + RAG 专项指标
  3. 做数学运算、代码开发、复杂逻辑分析→推理模型:Pass@k + 思维链一致性
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 15:11:10

命令行管理文件 1

1.文件命名规则文件名里不能有/文件名不能超过 255 个字符要区分大小写目录也是文件,在同一路径下,两个不同类型文件不能同名2.目录管理2.1创建目录mkdir格式mkdir -选项 目录名选项选项功能-p递归创建目录,已存在目录不会被覆盖-v显示创建目…

作者头像 李华
网站建设 2026/6/10 15:08:51

CNN卷积神经网络学习笔记

1.卷积类比滤波器:用一个小的模板(卷积核/滤波器)在输入信号(图像)上滑动,对局部区域进行加权求和,从而改变或提取信号的某些特征。1.2卷积核,权重(3*3里面具体的9个数)可…

作者头像 李华
网站建设 2026/6/10 15:07:32

ctf show web入门110

这是一道典型的 PHP 代码审计与绕过题(通常出现在 CTF 比赛中)。题目核心在于通过 eval() 函数执行任意代码以获取 Flag。执行点: eval("echo new $v1($v2());");但是v1v2都被正则限制 被禁用的字符包括:绝大多数特殊符…

作者头像 李华
网站建设 2026/6/10 15:07:29

FreeRTOS-STM32-HAL库一步步移植教程

FreeRTOS-HAL库一步步移植教程下载FreeRTOS裁切文件创建HAL工程配置时钟配置时钟树配置时基源配置NVIC配置代码生成 code generstion移植测试引脚生成Keil工程项目移植FreeRTOS到Keil 并配置配置Keil配置include pathsFreeRTOSConfig.h 文件添加宏定义stm32f1xx_it.c 文件配置创…

作者头像 李华
网站建设 2026/6/10 14:51:50

大厂笔试“性格测试”和“情商题”真的能刷人?过来人教你如何准备(非技术篇攻略)

大厂笔试“性格测试”和“情商题”真的能刷人?揭秘非技术环节的底层逻辑与实战策略当技术能力达到一定水平后,大厂笔试中的非技术环节往往成为决定成败的关键分水岭。许多候选人在LeetCode上刷题数百道,却可能因为一道看似简单的图形推理题或…

作者头像 李华