大模型三类分类测评指标梳理-深圳市維司達科技有限公司

大模型整体分类：按模型能力分成判别型、生成型、推理型 3 大类，企业选型时依据业务场景对应查看测评指标，用来横向对比各大模型优劣。

一、判别型大模型

传统 AI：分类 / 打分 / 预测，输出类别 / 数值

定位

多用于风控识别、内容审核、疾病筛查、垃圾邮件分类等，输出固定分类结果测评核心：分类结果准不准

四大核心指标 + 释义、公式逻辑、适用场景

表格

指标	核心关注点	通俗解释	短板 & 适用场景
Accuracy 准确率	全局整体正确率	正确样本 ÷ 全部样本，数值越高整体效果越好（整体猜对的总数占全部）	缺陷：数据不均衡时失真例：95% 样本为 A 类，无脑全判 A 就能拿到 95% 高准确率，但实际无效
Precision 精确率	不误判、不冤枉负样本（少 FP 假正例）	模型标记为正例的样本里，真正是正例的占比公式：举例：查出 50 封垃圾邮件，10 封误判正常邮件→40/50=80% （抓回来的人里，真小偷占比）	内容封禁、司法判别场景优先看，避免误封合规内容、错判无罪样本FP：负样本错判成正样本（正常邮件标垃圾）
Recall 召回率	不漏检、不错放正样本（少 FN 假负例）	所有真实正例中，被模型成功找出来的占比公式：（全部真小偷里，被抓到的比例）	医疗诊断、金融反欺诈、灾害预警首选FN：真实正例错判成负样本（患病被判健康、盗刷判正常交易）
F1-Score	精确率 & 召回率综合平衡值	精确率、召回率调和平均值，公式：数值越高两项指标越均衡（精准和召回的综合成绩单）	样本不均衡场景刚需：罕见病筛查、垃圾邮件、诈骗识别案例：99 封正常 + 1 封垃圾，全判正常→准确率 99%，但召回、精确率、F1 全为 0，直接暴露模型缺陷

真实违规 (1)、模型判违规 (1) TP
真实违规 (1)、模型误判正常 (0) FN
真实正常 (0)、模型判正常 (0) TN
真实正常 (0)、模型误判违规 (1) FP

选型快速选择口诀

怕漏检（癌症筛查、反诈、预警）→优先 Recall 召回率
怕误判（内容封禁、风控处罚）→优先 Precision 精确率
样本分布悬殊、需要综合平衡→优先 F1 分数

二、生成型大模型（文案 / 对话 / 总结，输出自然文本）

定位

产品智能客服、文案生成、知识库问答（RAG），测评核心：输出文本质量、流畅度、多样性

三大测评维度

3H 原则（文本质量顶层标准）
- Helpfulness 有用性：回答贴合用户提问、能解决实际需求
- Honesty 真实性：不编造虚假信息、不胡说杜撰
- Harmless 无害性：无违规、偏见、不良引导内容
通用文本量化指标（算法指标）：衡量语句通顺、语义贴合度（如 BLEU、ROUGE 等）
企业 RAG 专属指标：面向知识库问答场景，重点考核引用来源准确性、幻觉概率、召回知识库原文精准度

三、推理型大模型（数学 / 逻辑 / 代码 / 复杂计算题，侧重逻辑推导）

定位

数理解题、代码编写、复杂业务逻辑推演，测评核心：推理逻辑严谨性、最终答案正确率

两大核心指标

Pass@k 通过率多用于数学、代码测评：同一个题目给模型 k 次作答机会，任意一次答对即算该题通过；通过率越高，模型容错与解题能力越强。
CoT Consistency 思维链一致性重复多次提问同一问题，若模型多轮推理思考路径不一样，但最终答案统一，代表模型逻辑稳定、不会前后自相矛盾。

「量化 CoT 执行得好不好、思考深不深」的过程指标

CoT 思维链：强制模型先写「分步思考、分析、推导」，再出答案 → 必然拉高：思考长度、膨胀率、推理耗时、纠错次数
逐项对应：
latency 延迟CoT 会显著增加推理 token 量 →延迟变长、显卡负载升高。同硬件下：CoT 模式 latency 远大于普通问答。
reasoning_len 思考量CoT 的核心就是拉长显式思考过程→ reasoning_len 大幅上升； CoT 越细致、分步越多，思考长度越大。
backtrack_count 纠错力（回溯次数）只有有完整思考过程，模型才会出现「想错→发现→修正」。
无 CoT 直答：几乎没有回溯，backtrack_count≈0
复杂问题 + CoT：思考链条变长，更容易触发逻辑自查、推翻前文 → 回溯次数显著增加结论：CoT 是观测纠错力的前提。
expansion_ratio 推理膨胀率公式：膨胀率 = 推理字数 / (最终答案字数+1)CoT 把中间推理内容显性输出，分子（推理字数）暴增，分母（最终答案）不变 / 变化很小 →CoT 模式下膨胀率天然大幅升高。补充：
高难度题 + 强 CoT → 膨胀率极高（大量推演、试错、纠错）
简单题 + CoT → 膨胀率中等（简单走流程，无深度推演）