news 2026/6/21 3:31:45

8.5 集成学习方法:Bagging、Boosting、Stacking原理与实现

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
8.5 集成学习方法:Bagging、Boosting、Stacking原理与实现

8.5 集成学习方法:Bagging、Boosting、Stacking原理与实现

集成学习通过构建并结合多个学习器来完成学习任务,其性能通常显著优于单一学习器,是现代机器学习工具箱中的核心组件。集成学习的有效性基于一个基本假设:多个模型的组合可以修正单个模型的错误,从而获得更稳定、更准确的预测。本节将系统阐述三种主流的集成学习范式:通过并行构建独立模型以减少方差的Bagging,通过序贯构建模型以修正偏差的Boosting,以及通过训练元模型以组合基学习器预测的Stacking

8.5.1 集成学习基础与有效性分析

集成学习的核心思想是“集思广益”。给定一个包含mmm个样本的数据集D={ (xi,yi)}i=1mD = \{(\mathbf{x}_i, y_i)\}_{i=1}^mD={(xi,yi)}i=1m和一组基学习算法,集成学习旨在生成多个基学习器{ h1,h2,...,hT}\{h_1, h_2, ..., h_T\}{h1,h2,...,hT},并通过某种策略(如投票法、加权平均)将它们组合成最终模型HHH

其有效性可以从统计、计算和表示三个角度理解:

  1. 统计角度:当假设空间较大而数据有限时,单一学习器可能因陷入局部最优或过拟合而性能不佳。集成通过对多个可能假设进行平均,可以降低选择到错误假设的风险。
  2. 计算角度:许多学习算法(如决策树、神经网络)的优化过程是非凸的,受初始值影响大。通过多次运行并从不同起点开始构建模型并集成,可以逼近更好的解。
  3. 表示角度:真实的假设可能不在当前算法的假设空间内。通过组合多个假设空间中的模型,有可能扩展有效的假设空间,逼近更复杂的真实函数。

从偏差-方差分解的视角看,集成主要致力于降低方差(如Bagging)或降低偏差(如Boosting),从而提升泛化性能。

8.5.2 Bagging:并行自助聚合

Bagging(Bootstrap Aggregating)由Breiman于1996年提出,是一种基于自助采样法的并行式集成方法[1]。其核心是通过引入样本扰动来构建多样性,然后通过平均来稳定预测。

8.5.2.1 算法原理与步骤

给定训练集DDD和基学习算法(通常为不稳定学习器,如决策树),Bagging重复进行以下步骤TTT次:

  1. 自助采样:从DDD中有放回地随机抽取mmm个样本,形成一个自助采样集DtD_tDt。每次采样,每个样本未被抽中的概率为(1−1m)m≈e−1≈0.368(1 - \frac{1}{m})^m \approx e^{-1} \approx 0.368(1m1)me10.368,因此DtD_tDt中约有63.2%的原始样本。
  2. 基学习器训练:使用自助采样集DtD_tDt独立训练一个基学习器hth_tht
  3. 结果聚合:对所有TTT个基学习器的预测进行聚合。对于分类任务,通常采用简单投票法(少数服从多数);对于回归任务,采用简单平均法
    H(x)=1T∑t=1Tht(x)(回归) H(\mathbf{x}) = \frac{1}{T} \sum_{t=1}^{T} h_t(\mathbf{x}) \quad \text{(回归)}H(x)=T1t=1Tht(x)(回归)
8.5.2.2 方差减少与袋外估计

Bagging通过自助采样引入了样本扰动,使得各基学习器在不同数据子集上训练,增加了模型间的多样性(不相关性)。对于输出具有较大方差的基学习器(如深度决策树),这种对预测结果的平均操作能够有效降低整体模型的方差,从而提高泛化能力,尤其能抑制过拟合。

自助采样过程天然地产生了袋外样本(Out-Of-Bag, OOB),即未出现在某个特定自助采样集DtD_tDt<

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 15:12:05

【课程设计/毕业设计】基于springboot的智慧乡村治理平台系统的智慧乡村管理系统【附源码、数据库、万字文档】

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

作者头像 李华
网站建设 2026/6/19 17:20:48

Java计算机毕设之基于springboot的智慧乡村治理平台系统乡村智慧治理系统“乡治通”(完整前后端代码+说明文档+LW,调试定制等)

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

作者头像 李华
网站建设 2026/6/15 6:14:40

Langchain-Chatchat源码结构解析:快速上手二次开发

Langchain-Chatchat源码结构解析&#xff1a;快速上手二次开发 在企业智能化转型的浪潮中&#xff0c;如何让大模型真正“懂”自家业务&#xff0c;而不是泛泛而谈&#xff1f;一个常见的挑战是&#xff1a;虽然通用AI能回答百科问题&#xff0c;但面对“我们公司差旅报销标准是…

作者头像 李华
网站建设 2026/6/21 1:44:03

FaceFusion人脸替换在明星替身拍摄中的产业影响

FaceFusion人脸替换在明星替身拍摄中的产业影响 在一部动作大片的拍摄现场&#xff0c;主角需要从燃烧的高楼跃下。过去&#xff0c;这样的镜头要么依赖昂贵的CGI建模&#xff0c;要么由特技演员完成后再通过后期合成——但无论哪种方式&#xff0c;都难以完全避免“穿帮”或耗…

作者头像 李华
网站建设 2026/6/20 15:52:39

微服务技术选型:从生态架构视角看go-kratos的不可替代性

微服务技术选型&#xff1a;从生态架构视角看go-kratos的不可替代性在 Go 语言微服务生态中&#xff0c;单一框架的能力边界往往决定项目上限&#xff0c;而 “核心框架 生态扩展” 的架构协同性&#xff0c;才是长期支撑业务迭代的关键。面对 Gin、Go-Micro、Kitex 等选项&am…

作者头像 李华
网站建设 2026/6/18 13:12:21

Java毕设选题推荐:基于springboot+vue的智慧乡村治理平台系统乡村治理平台“村事达” 【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

作者头像 李华