机器学习——决策树-深圳市維司達科技有限公司

决策树是一种直观且易于解释的监督学习算法，广泛应用于分类和回归任务。它通过模拟人类决策过程，将复杂问题拆解为一系列简单的判断规则，最终形成类似 “树” 状的结构。以下从基础概念、原理、算法类型、优缺点及应用场景等方面展开详细介绍。

概念

决策树通过对训练样本的学习，并建立分类规则，然后依据分类规则，对新样本数据进行分类预测，属于有监督学习

核心

所有数据从根节点一步一步落到叶子节点

根节点：第一个节点

非叶子节点：中间节点

叶子节点：最终结果节点

需要考虑的问题：

1.哪个节点作为根节点？哪些节点作为中间节点？哪些节点作为叶子节点？

2.节点如何分裂？

3.节点分裂标准的依据？

决策树的分类标准

1.ID3算法

衡量标准：

熵值：表示随机变量不确定性的度量，或者说是物体内部的混乱程度

熵值计算公式：

举例说明（数据如下图）：

熵：熵值越小，该节点越“纯”。

第一遍遍历：

1.标签（结果是否外出打球）的熵（类别熵）：

14天中，9天打球，5天不打球，熵为：

计算对数的Python程序：

import math

result = -9/14*math.log(9/14, 2) - 5/14*math.log(5/14, 2)

2.基于天气的划分

属性熵：

晴天【5天】的熵：

Overcast（阴天）【4天】的熵：

雨天【5天】的熵：

那么，天气对应标签结果的熵为：

熵值计算：

5/14*0.971+4/14*0+5/14*0.971=0.693

则信息增益为：0.940-0.693=0.247

在决策树算法中，信息增益（information gain）是特征选择的一个重要指标。它描述的是一个特征能够为整个系统带来多少信息量（熵），用于度量信息不确定性减少的程度。

如果一个特征能够为系统带来最大的信息量，则该特征最重要，将会被选作划分数据集的特征。

3.基于温度的划分

Hot【4天】的熵：

Mild【6天】的熵：

Cool【4天】的熵：

熵值计算：4/14*1+6/14*0.918+4/14*0.811=0.911

信息增益为：0.940 – 0.911 = 0.029

4.基于湿度的划分

High【7天】的熵：

Normal【7天】的熵：

熵值计算：7/14*0.985+7/14*0.592=0.789

信息增益：0.940 – 0.789 =0.151

5.基于有风的划分

False【8天】的熵值：

True【6天】的熵值：

熵值计算：8/14*0.811 + 6/14*1 = 0.892

信息增益：0.940 - 0.892 = 0.048

综上：信息增益的大小：

天气：0.247

温度：0.029

湿度：0.151

有风：0.048

显然，信息增益最大的是：天气 > 湿度 > 有风 > 温度

2.C4.5算法（解决稀疏向量的问题，例如编号）

衡量标准：信息增益率

C4.5算法是一种决策树生成算法，它使用信息增益比（gain ratio）来选择最优分裂属性，具体步骤如下：

1、计算所有样本的类别熵（H）。

2、对于每一个属性，计算该属性的熵【也为自身熵】（Hi）。

3、对于每一个属性，计算该属性对于分类所能够带来的信息增益（Gi = H - Hi）。

4、计算每个属性的信息增益比（gain ratio = Gi / Hi），即信息增益与类别自身熵的比值。

选择具有最大信息增益比的属性作为分裂属性。

3.CART决策树（用Gini指数最小化准则来进行特征选择。）

衡量标注：基尼系数

决策树剪枝

为什么要剪枝：

防止过拟合

如何剪枝：

预剪枝和后剪枝

通常进行预剪枝，因为后剪枝虽然精确度高，但是速度慢

预剪枝策略：

1.限制树的深度

2.限制叶子节点的个数以及叶子节点的样本树

3.基尼系数

决策树的优缺点

优点

简单直观，容易理解

不需要特征标准化

可处理离散和连续特征

对缺失值不敏感

可用于分类与回归

缺点

容易过拟合

对小样本数据不稳定

对类别不平衡敏感

可解释性好但精度可能不如集成方法（如随机森林、XGBoost）

10、主动防御：邮件反垃圾技术全解析

主动防御：邮件反垃圾技术全解析 1. 灰名单技术原理灰名单技术主要是对当前 SMTP 标准进行细致解读，并添加一个善意的“谎言”来简化操作。垃圾邮件发送者常使用他人设备发送邮件，其未经授权安装的软件需轻量级以避免被发现。而且，他们通常不认为单个邮件很重要，这导致典…

李华

HTTP/HTTPS 简介

HTTP/HTTPS 简介引言 HTTP（超文本传输协议）和HTTPS（安全超文本传输协议）是互联网上最常用的两种网络协议，它们在信息传输过程中扮演着至关重要的角色。本文将详细介绍HTTP/HTTPS的起源、工作原理、特点以及它们在互联网中的地位。 HTTP的起源与工作原理起源 HTTP是…

李华

28、打印技术的发展历程与Linux系统中的打印操作

打印技术的发展历程与Linux系统中的打印操作打印技术在计算机发展历程中经历了显著的变革，从早期的字符式打印机到如今的图形化打印机，每一次的技术革新都为我们的打印需求带来了更多的便利和可能性。同时，在Linux系统中，也有一系列成熟的工具和方法来实现高效的打印操作…

李华

ToolTrain：利用 LLM 进行资源库深度搜索和问题定位的新方法

摘要本文重点讨论软件开发中的问题定位问题。问题本地化是指以自然语言编写的错误报告为线索，识别代码库中需要修复的代码的过程。对于大型代码库来说，这一过程既耗时又耗力，而且会大大降低开发效率。近年来，LLM 在代码生成和…

李华

springboot社区医院信息平台（11519）

有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码SQL脚本）配套文档（LWPPT开题报告）远程调试控屏包运行三、技术介绍 Java…

李华

AI元人文构想的理论构建过程与深层意义分析（二）

AI元人文构想的理论构建过程与深层意义分析在人工智能技术掀起全球变革的浪潮中，一个名为“AI元人文构想”的原创理论框架，以极为独特的构建方式与实践路径，为我们重新思考人机关系、文明演进提供了全新视角。这一由独立研究者岐金兰在2025年…

李华