回归还是分类？从目标变量生成逻辑判断机器学习问题本质-深圳市維司達科技有限公司

1. 这不是模型选择题，而是问题定义题

你刚学完线性回归和逻辑回归，打开 Kaggle 下载了第一个数据集，兴奋地准备建模——结果卡在了第一步：目标列是“0.23”“0.87”“0.41”，该用回归还是分类？
你翻遍教程，发现它们总在说：“回归预测数值，分类预测标签”。听起来很清晰。但当你真正面对一个医疗数据集，目标列叫readmission_risk_score，取值范围是 0–1，小数点后两位；或者看到电商数据里有个customer_lifetime_value_estimate，单位是元，但只给了三档：低（<500）、中（500–3000）、高（>3000）——这时，“数值 vs 标签”的二分法瞬间失效。

这就是绝大多数初学者真正摔跤的地方：他们把“回归 vs 分类”当成算法工具箱里的两个按钮，按错了就换一个重跑；而没意识到，这其实是整个建模流程的第一道闸门，关得不严，后面所有工作都在漏水。

我带过 37 个从零起步的 ML 实践班，其中 29 人第一次独立完成项目时，在这个问题上返工超过 3 次。最典型的是一个做信贷风控的同学：他用 XGBoost 回归模型预测default_probability（0–1 连续值），训练 RMSE 低至 0.08，上线后业务方问：“那到底批不批？”——他愣住了。模型输出 0.41 和 0.42，业务系统无法据此做决策。他不得不回炉重造，把问题重新定义为二分类（“批”或“拒”），改用 AUC 优化，并加入阈值敏感分析。两周时间，全耗在纠正这个起点错误上。

所以这篇文章不讲公式推导，不列算法对比表，也不复述教科书定义。我要带你回到真实场景里，用我踩过的 11 个坑、拆解过的 43 个项目、亲手重写过 7 次的问题定义文档，还原一个资深从业者面对新数据集时，脑子里真实发生的思考链路：怎么读目标列、怎么问业务方、怎么查数据生成逻辑、怎么判断“看似连续实则离散”、怎么识别“伪装成分类的回归陷阱”。

关键词：回归、分类、目标变量、问题定义、机器学习、Towards AI - Medium。如果你正卡在建模前的“第一秒”，或者已经训出高分模型却无法落地，这篇就是为你写的。它不教你“怎么做”，而是帮你建立一套防错直觉——下次打开数据文件，光看 target 列，你就能在 30 秒内锁定问题本质。

2. 问题本质：不是输出形式，而是决策意图

2.1 回归的本质是“逼近”，不是“预测”

很多人误以为回归的目标是“算准那个数字”。错。回归真正的任务是：在连续空间中，找到一个函数，让它的输出尽可能靠近真实值的分布中心。注意，是“靠近”，不是“等于”；是“分布中心”，不是“单点真值”。

举个生活化的例子：你用电子秤称苹果，显示 243.6 克。但你知道，这数字本身有误差——传感器精度、温度漂移、放置角度都会影响结果。你真正信任的，是“这苹果大概率在 242–245 克之间”，而不是死磕 243.6 这个精确值。回归模型干的就是这件事：它不承诺给你 243.6，但它保证，当它说“243.6”时，真实值以高概率落在一个窄区间内。

所以回归的核心约束是：输出空间必须具备度量意义。也就是说，任意两个输出值之间，必须能定义“距离”且这个距离有实际解释。比如：

房价 ₹88,00,000 和 ₹90,00,000 相差 ₹2,00,000 —— 这个差额直接对应客户多付/少付的钱；
温度 23.5℃ 和 25.1℃ 相差 1.6℃ —— 这个差值决定空调是否需要启动压缩机；
用户停留时长 127 秒和 134 秒相差 7 秒 —— 这个差值反映内容吸引力衰减速度。

一旦距离失去业务含义，回归就失效了。我见过最典型的反例，是一个教育 SaaS 公司的“学习完成度”指标：取值 0–100，但它是用“观看视频时长 ÷ 视频总时长 × 权重 + 测验正确率 × 权重”粗略合成的。业务方告诉我：“完成度 72 和 73 没区别，我们只关心是不是 ≥70。”——这时，强行用回归拟合，模型会花大力气去区分 72.1 和 72.9，而完全忽略 69.9 和 70.1 这个真正关键的边界。结果 RMSE 很低，但业务价值为零。

提示：判断是否适合回归，先问自己：“如果模型把真实值 100 预测成 99，和把 100 预测成 50，这两种错误，业务上是否真的存在‘严重程度’的差异？” 如果答案是否定的（比如都算“未达标”），那就不是回归问题。

2.2 分类的本质是“划界”，不是“打标”

分类常被简化为“给样本贴标签”，但这掩盖了它的核心动作：在特征空间中，寻找一组边界，把不同类别的样本尽可能干净地分开。

关键在于，“干净分开”不等于“绝对正确”。现实中，边界永远是模糊的。比如医疗诊断中的“良性肿瘤 vs 恶性肿瘤”：影像特征存在大量重叠区，模型必须在“漏诊（把恶性判成良性）”和“误诊（把良性判成恶性）”之间权衡。这时，分类模型输出的不是非黑即白的标签，而是决策依据的概率分布，以及业务可接受的风险阈值。

所以分类成功的标志，不是准确率 99%，而是：

模型能识别出哪些样本处于边界模糊区（高熵预测）；
业务方能根据成本设定合理阈值（比如癌症筛查宁可多查，设阈值 0.3）；
当数据分布偏移时（如新设备拍出的影像对比度不同），模型能通过校准保持阈值稳定性。

我处理过一个工业质检项目：目标是判断电路板焊点是否“合格”。原始标注是“合格/不合格”二分类。但产线工程师私下告诉我：“其实有三类——明显合格、明显不合格、需要老师傅复检的灰色区。”我们没立刻改成三分类，而是先用二分类模型输出概率，画出预测概率分布图。结果发现，概率在 0.4–0.6 区间的样本，人工复检后 82% 真实为“灰色区”。于是我们把模型输出拆成三层：P<0.4 → 自动放行，P>0.6 → 自动拦截，0.4≤P≤0.6 → 进入人工复检队列。一个简单的阈值切分，就把准确率从 89% 提升到等效 97%（因复检环节兜底）。

注意：分类问题的价值，往往不在“最终标签”，而在“预测置信度”的可靠性。如果模型对所有样本都输出 0.5±0.05 的概率，那它本质上没学会任何区分能力，只是在随机猜。

2.3 真正的分水岭：目标变量的生成逻辑

教科书只看 target 列的取值类型（int/float vs string），但实战中，决定问题性质的，是这个 target 是怎么来的。

我整理了 43 个真实项目的目标变量来源，发现 87% 的误判源于忽略生成逻辑。以下是必须追问的三个问题：

第一问：这个 target 是原始观测值，还是加工产物？

原始观测值：用户实际支付的金额、传感器实时读数、日志记录的响应毫秒数——这类通常适合回归；
加工产物：由规则引擎计算的“信用分”、聚类算法产出的“客户分群 ID”、人工标注的“情绪倾向”——需深挖加工逻辑。

案例：一个金融团队提供risk_score（0–100 整数），声称是“违约风险”。我查其文档发现，这是用 5 个规则（逾期次数、负债率、查询次数等）加权求和再映射到 0–100。问题来了：规则权重是专家经验设定，且各维度量纲不同（次数无量纲，负债率是百分比）。此时，risk_score本质是离散化序数，而非连续数值。强行回归，模型会错误学习“99 和 100 的差距比 1 和 2 更大”，而实际业务中，99→100 可能只是某条规则阈值被跨过。我们最终改为有序分类（ordinal classification），用 Proportional Odds Model，AUC 提升 12%。

第二问：这个 target 是否隐含决策动作？

如果 target 直接对应业务动作（如“批准贷款”“召回车辆”“推送优惠券”），它大概率是分类问题，因为动作是原子性的；
如果 target 是动作的输入参数（如“贷款额度”“召回批次大小”“优惠券面额”），它更可能是回归问题，因为参数需精细调节。

案例：电商团队让我预测discount_rate（折扣率，0–0.5 连续值）。我问：“这个值最后怎么用？”答：“系统自动按预测值打折。”我再问：“如果预测 0.231 和 0.232，系统执行有区别吗？”答：“没有，前端只显示整数百分比，0.231→23%，0.232→23%。”——真相浮出：业务真正需要的是“23% or 24%”，而非连续值。我们转为多分类（0%, 5%, 10%, ..., 50%），用 F1-score 优化，线上转化率提升 3.2%。

第三问：这个 target 的粒度是否匹配业务需求？

连续值可能过细（如预测到小数点后 4 位，但业务只看整数）；
分类标签可能过粗（如只有“高/中/低”，但运营需“高-紧急/高-常规/中-观察”）。

我处理过一个物流时效预测：目标是delivery_hours（预计送达小时数）。数据里有 0.5、1.25、2.75 等值，看起来很连续。但跟调度员聊后发现：“我们排班只按整点切片，0.5 小时和 1.25 小时都算‘1 小时内’，2.75 小时和 3.1 小时都算‘3 小时内’。”——原来业务天然按 1 小时分段。我们把 target 转为 8 个时间段（<1h, 1–2h, ..., >7h），用分类模型，F1-score 比回归 RMSE 更能反映调度准确率。

这三个问题，我每次接手新项目必问。它不依赖代码，不依赖数学，只依赖你是否愿意花 20 分钟和业务方喝杯咖啡。但正是这 20 分钟，省下了后续 200 小时的无效调参。

3. 实操指南：四步定位法与决策树

3.1 第一步：可视化目标变量分布（必须动手）

别只看df['target'].describe()。打开 Python，执行这三行：

import matplotlib.pyplot as plt import seaborn as sns # 1. 直方图（连续型检查） plt.figure(figsize=(12, 4)) plt.subplot(1, 3, 1) sns.histplot(df['target'], bins=50, kde=True) plt.title('Target Distribution') # 2. 箱线图（异常值检查） plt.subplot(1, 3, 2) sns.boxplot(y=df['target']) plt.title('Outliers Check') # 3. 类别频次图（离散型检查） plt.subplot(1, 3, 3) value_counts = df['target'].value_counts().head(20) # 取前20高频 sns.barplot(x=value_counts.values, y=value_counts.index) plt.title('Top 20 Values Frequency') plt.tight_layout() plt.show()

重点看三处：

直方图是否呈现单峰连续分布？如果出现多个尖峰（如 0 附近一堆、50 附近一堆、100 附近一堆），说明 target 可能是人为分段的离散值；
箱线图是否显示大量离群点？如果 95% 数据集中在 [0, 1]，但有 5 个点在 1000+，要查这些离群点是噪声还是特殊业务场景（如 VIP 客户）；
频次图是否显示少数值占据绝对多数？如 “0” 占 70%、“1” 占 25%、“其他” 占 5%，这极可能是二分类问题（0=否，1=是），其余为标注错误或边缘情况。

我曾在一个健康 App 项目中，直方图显示steps_count在 0 处有巨大峰值（占 38%），接着是 5000–8000 的平缓峰。起初以为是“运动 vs 不运动”二分类，但频次图揭示：0 是用户未开启计步权限（缺失值伪装），真实运动数据从 100 开始连续分布。我们用插补+截断处理，回归效果显著提升。

实操心得：永远先画图，再下结论。我见过最离谱的误判，是一个同学看target是 int 类型，直接当分类，结果直方图显示它是完美正态分布——那是用户年龄，当然是回归。

3.2 第二步：检查目标变量的数据类型与唯一值比例

运行这段代码：

target = df['target'] n_unique = target.nunique() n_total = len(target) ratio = n_unique / n_total print(f"Unique values: {n_unique}") print(f"Total samples: {n_total}") print(f"Unique ratio: {ratio:.4f}") print(f"Data type: {target.dtype}") # 如果是数值型，检查是否实际为离散编码 if pd.api.types.is_numeric_dtype(target): if ratio < 0.05 and n_unique <= 20: print("⚠️ Warning: Numeric but low unique ratio — likely encoded categories!") elif ratio > 0.95 and n_unique > 100: print("✅ Likely continuous regression target.") else: print("🔶 Mixed signal — need domain check.") else: print("✅ Categorical — classification candidate.")

关键阈值解读：

Unique ratio < 0.05 且唯一值 ≤20：高度疑似分类问题。比如target是 float 类型，但只有 0.0, 1.0, 2.0 三个值，这是典型的 one-hot 编码残留；
Unique ratio > 0.95 且唯一值 >100：基本可判定为连续值，适合回归；
0.05 ≤ ratio ≤ 0.95：危险区！必须结合业务理解。例如customer_satisfaction_score（1–5 星），ratio=0.2（5 个值），但它是李克特量表，学术上视为有序分类，实践中常按回归处理（因星级间有自然顺序）。

案例：一个客服对话项目，sentiment_score是 float，range=[1.0, 5.0]，ratio=0.08（实际 42 个唯一值）。表面看像回归，但查标注规范发现：1–2=负面，2–3=中性，3–5=正面，且每个分数段有明确定义。我们放弃回归，改用三分类 + 标签平滑（Label Smoothing），在验证集上 F1 提升 9%。

注意：不要迷信 dtype。我处理过一个政府数据集，income_level列是 object 类型，值为 "low", "medium", "high"，但文档注明这是按收入分位数划分的——本质是有序分类，不能简单用 LabelEncoder 变成 0/1/2 后当多分类，而要用 OrdinalEncoder 保留顺序信息。

3.3 第三步：构建决策树——五问定乾坤

把以下五个问题打印出来，贴在显示器边框上。每遇到新 target，逐个回答：

Q1：这个值是否有物理/业务单位？

有（如 ₹, kg, ℃, s）→ 强回归信号；
无（如 "fraud", "cat", "urgent"）→ 强分类信号；
模糊（如 "score", "index", "level"）→ 进入 Q2。

Q2：业务方用这个值做什么决策？

直接执行动作（“批准”“拦截”“召回”）→ 分类；
作为参数输入其他系统（“设置利率”“分配预算”“调整功率”）→ 回归；
仅用于监控报表（“看趋势”“做排名”）→ 需看 Q3。

Q3：这个值的微小变化是否引发决策改变？

是（如利率从 4.99% → 5.00% 触发监管报备）→ 回归（因边界敏感）；
否（如满意度从 4.2 → 4.3 不改变任何策略）→ 分类（因关注区间）；
部分是（如 0–60 分不干预，60–80 分发提醒，80+ 分电话回访）→ 有序分类。

Q4：数据生成过程是否引入人为分段？

是（如“按月收入分五档”“按点击率分 TOP10%”）→ 分类优先；
否（如传感器读数、交易流水、日志时间戳）→ 回归优先；
不确定 → 查原始文档或问数据生产方。

Q5：当前标注一致性如何？

高（多人标注 Kappa >0.8）→ 信任标签，按类型走；
低（Kappa <0.4 或无标注协议）→ 优先回归（因连续值对噪声更鲁棒）；
中（Kappa 0.4–0.8）→ 用回归输出概率，再人工校准阈值。

我用这个决策树复盘过 11 个历史项目，准确率 100%。最有趣的是一个“预测用户流失概率”的项目：target 是 0–1 连续值，Q1 无单位，Q2 用于触发挽留任务（动作），Q3 微小变化不触发新动作（只看是否 >0.5），Q4 是模型产出（非原始数据），Q5 标注一致性中等。综合判断：二分类问题，但需用回归模型输出概率，再优化阈值。我们采用 LightGBM + Optuna 搜索最佳阈值，AUC-PR 提升 18%。

3.4 第四步：小规模验证——用 100 行代码快速试错

别等全量训练。写个极简脚本，5 分钟验证你的判断：

from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier from sklearn.metrics import mean_squared_error, accuracy_score, f1_score import numpy as np # 准备数据 X = df.drop('target', axis=1) y = df['target'] # 采样 1000 行（确保有代表性） X_sample, y_sample = X.sample(1000, random_state=42), y.iloc[X_sample.index] # 拆分 X_train, X_test, y_train, y_test = train_test_split( X_sample, y_sample, test_size=0.3, random_state=42 ) # 方案1：按你的判断建模 if your_judgment == 'regression': model = RandomForestRegressor(n_estimators=10, random_state=42) model.fit(X_train, y_train) pred = model.predict(X_test) score = np.sqrt(mean_squared_error(y_test, pred)) print(f"Regression RMSE: {score:.4f}") elif your_judgment == 'classification': # 关键：自动分箱（若 target 连续） if pd.api.types.is_numeric_dtype(y_train): y_train_bin = pd.qcut(y_train, q=3, labels=False, duplicates='drop').fillna(0).astype(int) y_test_bin = pd.qcut(y_test, q=3, labels=False, duplicates='drop').fillna(0).astype(int) else: y_train_bin, y_test_bin = y_train, y_test model = RandomForestClassifier(n_estimators=10, random_state=42) model.fit(X_train, y_train_bin) pred = model.predict(X_test) score = f1_score(y_test_bin, pred, average='weighted') print(f"Classification F1: {score:.4f}") # 方案2：反向建模（验证你的判断） if your_judgment == 'regression': # 用分类反向验证 y_train_bin = pd.qcut(y_train, q=3, labels=False, duplicates='drop').fillna(0).astype(int) y_test_bin = pd.qcut(y_test, q=3, labels=False, duplicates='drop').fillna(0).astype(int) model = RandomForestClassifier(n_estimators=10, random_state=42) model.fit(X_train, y_train_bin) pred = model.predict(X_test) score = f1_score(y_test_bin, pred, average='weighted') print(f"Reverse Classification F1: {score:.4f}")

解读结果：

如果你的判断正确，正向指标应显著优于反向指标（如回归 RMSE < 0.3 且分类 F1 < 0.6）；
如果两者接近（如 RMSE=0.25，F1=0.72），说明 target 处于模糊地带，需回归 Q2-Q4；
如果反向指标更好（如分类 F1=0.85，回归 RMSE=1.2），你的初始判断大概率错误，立即停手查原因。

我在一个新闻推荐项目中，用此法发现：engagement_score（0–100）按回归跑 RMSE=12.3，按三分类（低/中/高）F1=0.79。但当我把分类改为五分类（按十分位切），F1 降到 0.61。这提示：业务真正关心的只有“是否值得推首页”，于是我们聚焦二分类（>90th percentile），F1 达到 0.91。100 行代码，省了三天调参。

4. 避坑指南：那些没人告诉你的“灰色地带”

4.1 伪装成回归的分类陷阱

现象：target 是连续数值，但实际是分类标签的编码。

典型场景：

评分卡系统：银行用规则打分（0–100），但内部将 0–50=拒绝，51–70=人工审核，71–100=通过。此时，分数本身无度量意义，只是分类代号；
聚类结果：K-means 输出 cluster_id（0,1,2...），但被误当回归 target；
人工标注的强度值：如“疼痛程度 1–10”，但医生只按“轻/中/重”三档判断，10 分制是为减少主观偏差设计的。

识别技巧：

查看target.value_counts().sort_index()，如果出现“阶梯状”分布（如 0,10,20,30... 或 1,5,10,15...），大概率是分段编码；
计算相邻值差值的标准差：np.std(np.diff(sorted(y.unique())))，若接近 0，说明等距分段；
用pd.cut()按业务常识分箱，看分箱后各类别样本量是否均衡。

解决方案：

若分段明确（如 0–30/31–70/71–100），直接转为三分类；
若分段模糊但有业务重点（如只关心 >70），转为二分类 + 阈值优化；
若必须保留连续形式（如需输出概率），用有序回归（Ordinal Regression）或分位数回归（Quantile Regression）。

我处理过一个保险理赔项目，claim_severity是 1–5 整数，文档写“1=轻微，5=灾难”。但理赔员反馈：“1 和 2 都算小额，不走审批；4 和 5 必须总监签字。”我们放弃预测 1–5，改为预测“是否需总监审批”（二分类），AUC 从 0.68 提升到 0.89。

4.2 伪装成分类的回归陷阱

现象：target 是字符串或整数标签，但背后是连续潜在变量。

典型场景：

李克特量表：满意度 1–5 星，但用户心理感受是连续的；
等级评定：员工绩效“A/B/C/D”，但实际基于连续考核分；
医学分级：肿瘤分期 I/II/III/IV，但由连续生物标志物（如 Ki-67 指数）驱动。

识别技巧：

检查是否有官方转换公式（如“绩效分 = 0.3×业绩 + 0.4×协作 + 0.3×创新，再映射到 A/B/C/D”）；
查看原始数据源：如果底层数据库有raw_score字段，优先用它；
用 Spearman 相关系数检验标签序数与特征的相关性：若corr(rank_label, feature)显著高于corr(onehot_label, feature)，说明序数信息重要。

解决方案：

若有原始连续值，直接用回归；
若只有等级，用有序分类（Ordinal Classification），损失函数需考虑等级距离（如torch.nn.CrossEntropyLoss不适用，改用torch.nn.MarginRankingLoss）；
若必须用标准分类，添加标签平滑（Label Smoothing）和序数感知的损失加权。

案例：一个在线教育平台，course_difficulty是 "easy/medium/hard"，但教研团队提供了一套难度计算公式（基于题目平均解题时长、错误率、知识点覆盖）。我们重建difficulty_score，用回归预测，再按业务阈值映射回三分类，模型泛化能力提升 22%。

4.3 动态边界问题：今天分类，明天回归

现象：业务需求随时间演化，导致问题性质漂移。

典型场景：

风控策略升级：初期只分“通过/拒绝”，后期增加“通过-高风险需监控”；
产品迭代：SaaS 工具初期只分“免费/付费”，后期推出“基础/专业/企业”三级订阅；
法规变化：环保监测初期只报“达标/不达标”，新规要求报告具体超标倍数。

应对策略：

架构层面：设计“预测层 + 决策层”分离。预测层输出连续概率或分数，决策层按当前规则映射到动作；
数据层面：保留原始连续 target，分类标签作为衍生字段；
监控层面：跟踪target分布漂移（如 KS 检验），当分布变化超阈值时，触发问题性质复审。

我维护的一个支付风控系统，最初是二分类（欺诈/正常）。两年后，业务方要求增加“可疑交易”队列（需人工复核）。我们没重训模型，而是将原模型输出的fraud_probability拆为三层：P<0.3→放行，0.3≤P≤0.7→复核，P>0.7→拦截。仅修改决策逻辑，上线零成本。

4.4 多目标混合：一个 target，两种需求

现象：同一 target，不同业务方有不同使用方式。

典型场景：

销售预测：财务部要精确金额（回归），销售部要“是否达成季度目标”（分类）；
设备故障预测：运维部要“剩余寿命小时数”（回归），采购部要“是否需下周更换”（分类）。

解决方案：

主次分离：明确核心目标（如财务预算依赖金额，为主；销售激励依赖达标，为次），主目标决定问题类型；
联合建模：用 multi-task learning，共享底层特征，顶层分叉：一支回归分支预测数值，一支分类分支预测达标与否；
后处理分流：统一用回归模型，输出value和uncertainty（如预测区间），再按业务规则分流。

我们为一家制造企业做的设备预测，回归分支预测remaining_life_hours（RMSE=42h），分类分支预测needs_replacement_next_week（F1=0.85）。两个分支共享 LSTM 特征提取器，总训练时间比单独训练少 35%。

实操心得：永远记录你的问题定义决策。我在 GitHub 仓库根目录放一个PROBLEM_DEFINITION.md，包含：target 列名、数据类型、唯一值分布、业务用途、决策依据（引用会议纪要或邮件）、替代方案及弃用原因。这个文件比模型代码活得更久——三年后，新同事入职，靠它十分钟理解项目本质。

5. 评估指标：选错指标，等于选错问题

5.1 回归评估：为什么 RMSE 不是万能钥匙

RMSE（均方根误差）被过度滥用。它假设：

所有误差同等重要；
误差服从正态分布；
业务损失与误差平方成正比。

但现实常打破这些假设。

场景1：误差不对称

电商预测销量：少预测 100 件，损失缺货成本；多预测 100 件，损失库存成本。二者成本可能差 5 倍。
解决方案：用MAE（平均绝对误差）或定制损失函数，如loss = α * |y_true - y_pred|_+ + β * |y_true - y_pred|_-（α≠β）。

场景2：异常值主导

预测房屋价格：99% 房子在 50–200 万，1% 是豪宅（5000 万）。RMSE 会被豪宅误差拉高，掩盖普通房预测质量。
解决方案：用MAE或Huber Loss（对小误差用平方，大误差用线性）。

场景3：业务关注相对误差

预测用户生命周期价值（LTV）：预测 1000 元 vs 真实 1200 元（误差 20%），和预测 10000 元 vs 真实 10200 元（误差 2%），后者业务影响小得多。
解决方案：用MAPE（平均绝对百分比误差）或SMAPE（对称 MAPE）。

我处理过一个广告 ROI 预测，RMSE=0.15，但 MAPE=42%。查原因发现：模型对小预算广告（<1000 元）预测极差（MAPE=120%），而大预算广告（>10 万元）很准（MAPE=5%）。业务方实际更关心小预算优化，我们改用加权 MAE（小预算样本权重×10），模型在小预算组 MAPE 降至 28%。