目录
- 算法的核心思想
- 算法的系统实现
- 参考文献
- 修订日志
算法的核心思想
1、正则化的目标函数(Regularized Learning Objective)
解决传统梯度提升树(GBM)的模型太复杂、产生过拟合的问题,不使用最小化损失函数的技术路径。
创新点:在目标函数中加入一个正则化项(Regularization Term)。
作用:保证模型在测得准的同时能保证较低的复杂度(比如叶子节点太多,或者叶子节点的权重太大)。
2、二阶泰勒展开(Second-Order Approximation)
创新点:采用二阶泰勒展开。
作用:同时考虑“坡度”和“变化率”。
3、加权分位数草图(Weighted Quantile Sketch)
在数据量巨大时,寻找“最佳分割点”比较困难,因此,采用前25%、50%、75%来选取候选点。在XGBoost中,样本带上了“权重”,有二阶导数决定,同时,传统计算法无法处理带权重的分位数。