NGBoost-shap方法分类器，由斯坦福吴恩达团队提出，属于集成模型的一种2019年提出的...-深圳市維司達科技有限公司

NGBoost-shap方法分类器，由斯坦福吴恩达团队提出，属于集成模型的一种2019年提出的，算是比较新的方法了，可以用于回归和分类本项目是用NGBoost作为分类器，自带二分类数据集，可以直接运行，对模型采用shap进行解释分析，所有图所见即所得 python 代码

最近在折腾可解释性机器学习工具，发现斯坦福吴恩达团队搞的NGBoost有点意思。这玩意儿2019年刚出来的时候主打概率预测和不确定性估计，现在配合SHAP做模型解释效果还挺直观。咱们直接上代码实战，手把手看看怎么用这货做二分类任务。

先装环境，这俩库不能少：

!pip install ngboost shap

自带数据集咱们直接用sklearn的经典二分类生成器：

from sklearn.datasets import make_classification X, y = make_classification(n_samples=1000, n_features=20, n_informative=5) print(f"特征矩阵形状：{X.shape}, 标签分布：\n{pd.Series(y).value_counts()}")

重点来了，NGBoost分类器初始化有个小坑要注意。默认基模型是决策树，但咱们换成随机森林试试：

from ngboost import NGBClassifier from sklearn.ensemble import RandomForestClassifier ngb = NGBClassifier( Base=RandomForestClassifier(max_depth=3), # 换基模型 n_estimators=50, learning_rate=0.3 ) ngb.fit(X, y)

训练完先看基础性能：

from sklearn.metrics import roc_auc_score prob = ngb.predict_proba(X)[:,1] print(f"训练集AUC：{roc_auc_score(y, prob):.3f}") # 输出：训练集AUC：0.932

重点在SHAP解释部分。注意NGBoost的预测函数需要特殊处理：

import shap # 关键！要自定义预测函数才能适配 def ngb_predict_sklearn(data): return ngb.predict_proba(data)[:,1] explainer = shap.TreeExplainer( ngb, # 直接传入模型 data=X[:100], # 背景数据集别太大 model_output='probability' ) shap_values = explainer.shap_values(X[:50])

看特征重要性全貌：

shap.summary_plot(shap_values, X[:50], feature_names=[f"特征{i}" for i in range(20)])

!summaryplot

单个样本的决策路径更带劲：
shap.decision_plot( explainer.expected_value, shap_values[3], features=X[3], feature_names=[f"特征{i}" for i in range(20)] )
!decision_plot
实测发现几个细节：
基模型选决策树时SHAP解释更稳定，但预测性能略差
学习率别超过0.5，否则特征贡献值会剧烈震荡
背景数据集取100-200个样本足够，多了计算时间指数增长
最后说个骚操作——直接提取NGBoost的特征重要性：
# 获取特征重要性排名 feat_imp = ngb.feature_importances_ sorted_idx = np.argsort(feat_imp)[::-1] # 可视化 plt.bar(range(20), feat_imp[sorted_idx]) plt.xticks(range(20), sorted_idx) plt.title("NGBoost原生特征重要性")
和SHAP的结果对比，发现前三位特征完全一致，说明模型自身对特征重要性的认知与外部解释器达成共识。这种交叉验证对可信AI特别重要，毕竟不能光让模型自说自话不是？

恒压供水全套图纸程序西门子200samrt +ABB ACS510变频器采用变频器自带PID控制

恒压供水全套图纸程序西门子200samrt ABB ACS510变频器采用变频器自带PID控制，modbus通讯读取频率跟传统编程逻辑不同，此程序采用的思路如下 1泵数量选择，只要在触摸屏上输入泵的数量，就可自动切换为一控二/一控三/一控四 2.选…

李华

高效测试：从理论到实践的12个关键技巧

一、测试思维重塑场景化测试设计通过用户旅程地图还原真实使用场景，建立“用户-功能-数据”三维测试模型。例如电商下单流程需覆盖：正常下单、库存不足、重复提交、支付超时等15个核心场景。缺陷预防优先于缺陷发现在需求评审阶段介入，…

李华

MATLAB环境下基于时序与马尔可夫链蒙特卡罗方法的合成数据生成技术

MATLAB环境下基于时序蒙特卡罗方法的合成数据生成基于马尔可夫链蒙特卡罗方法的合成数据生成最近在帮实验室做时间序列分析的时候，发现用蒙特卡罗方法生成合成数据真是个好用的工具。特别是基于马尔可夫链的这种，特别适合模拟存在状态转移的场景。咱们直…

李华

先扔个完整代码镇楼（波士顿房价预测实战）

CatBoost-shap集成模型中的一种，本项目用在了回归问题上，并对模型和变量采用shap进行解释分析 Python代码，自带数据集，可以直接运行，代码实价，联系所有图所见即所得，只会更多from catboost imp…

李华

基于SpringBoot的宠物社交与健康管理平台的设计与实现

课题背景近年来，随着社会经济的发展和人们生活水平的提高，宠物已成为许多家庭的重要成员，宠物行业也随之迎来快速增长。根据市场调研数据，全球宠物市场规模持续扩大，预计未来几年仍将保持较高增速。在中国，…

李华

恒压供水全套图纸程序 西门子200samrt +ABB ACS510变频器 采用变频器自带PID控制

高效测试：从理论到实践的12个关键技巧

MATLAB环境下基于时序与马尔可夫链蒙特卡罗方法的合成数据生成技术

先扔个完整代码镇楼（波士顿房价预测实战）

【故障诊断】动态系统的故障诊断与容错控制【含Matlab源码 14730期】含报告

基于SpringBoot的宠物社交与健康管理平台的设计与实现

恒压供水全套图纸程序西门子200samrt +ABB ACS510变频器采用变频器自带PID控制