随机森林（初步学习）-深圳市維司達科技有限公司

随机森林是一种集成学习（Ensemble Learning）算法，核心思想是构建多个决策树，通过投票或平均的方式输出结果，以此降低单一决策树过拟合的风险，提升模型的泛化能力。

它在机器学习的分类、回归、特征重要性评估等任务中被广泛应用，是工业界和学术界最常用的算法之一。

一、核心原理：“随机” + “森林”

随机森林的 “随机” 体现在两个层面，“森林” 指由多棵决策树组成的集合：

样本随机（Bootstrap 抽样）
- 从原始训练集中，通过有放回抽样的方式，为每一棵决策树生成一个独立的训练子集。
- 这样做的目的是让每棵决策树的训练数据存在差异，避免所有树都学习到相同的特征模式，提升模型多样性。
- 未被抽到的样本称为OOB（Out-of-Bag）样本，可用于无额外验证集的模型评估。
特征随机（随机子空间）
- 在构建每一棵决策树的每个节点时，不是从所有特征中选择最优特征进行划分，而是随机选择一部分特征，再从这部分特征中选最优。
- 例如总共有 100 个特征，每棵树的每个节点随机选 10 个特征来划分。
- 这一步能进一步降低树与树之间的相关性，让森林的 “投票” 更有意义。
预测规则
- 分类任务：所有决策树分别预测类别，最终结果由多数投票决定（得票最多的类别为最终预测）。
- 回归任务：所有决策树分别预测数值，最终结果由所有树预测值的平均值决定。

二、优缺点

优点

泛化能力强：有效降低过拟合，相比单一决策树，在复杂数据集上表现更稳定。
对噪声不敏感：能处理含噪声的数据集，不易受异常值影响。
支持高维数据：无需特征工程（如降维）也能处理高维数据，同时可输出特征重要性，帮助筛选关键特征。
训练并行化：每棵树的训练相互独立，可利用多核 CPU 并行加速，训练效率高。

缺点

模型解释性差：决策树本身是 “白盒” 模型，但随机森林由多棵树组成，整体是 “黑盒”，难以直观解释预测逻辑。
对小样本数据集效果一般：样本量过小时，Bootstrap 抽样可能导致训练集多样性不足，模型性能下降。
内存占用较大：需要存储多棵决策树的结构，数据量大时内存消耗较高。

三、关键超参数（以 Python`sklearn`为例）

在使用sklearn.ensemble.RandomForestClassifier（分类）或RandomForestRegressor（回归）时，需调整以下核心超参数：

超参数	作用	调优建议
`n_estimators`	决策树的数量	通常越大效果越好，但达到一定阈值后性能趋于稳定；太大则会增加训练时间
`max_depth`	每棵树的最大深度	限制树的生长，防止过拟合；值太小会欠拟合，太大则过拟合
`max_features`	每个节点随机选择的特征数	分类任务默认`sqrt(n_features)`，回归任务默认`n_features`；可手动调整为`log2(n_features)`或具体数值
`min_samples_split`	节点分裂所需的最小样本数	样本数过少时停止分裂，防止过拟合
`min_samples_leaf`	叶节点所需的最小样本数	叶节点样本数过少时合并，提升模型稳定性
`bootstrap`	是否使用 Bootstrap 抽样	默认`True`；若设为`False`，则所有树都用原始训练集训练

import pandas as pd from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score, classification_report # 1. 读取数据（假设表格已保存为csv） data = pd.read_csv("电网电信客户流失数据.csv") X = data.drop("流失状态", axis=1) y = data["流失状态"] # 2. 划分训练集/测试集 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=42, stratify=y # 保持标签分布 ) # 3. 初始化随机森林模型 rf = RandomForestClassifier( n_estimators=100, # 100棵树 max_depth=8, # 限制树深度防过拟合 max_features="sqrt", # 特征随机选择 n_jobs=-1, # 并行训练 random_state=42 ) # 4. 训练与预测 rf.fit(X_train, y_train) y_pred = rf.predict(X_test) # 5. 模型评估 print("准确率：", accuracy_score(y_test, y_pred)) print("分类报告：\n", classification_report(y_test, y_pred)) # 6. 查看关键流失特征 feature_importance = pd.DataFrame({ "特征": X.columns, "重要性": rf.feature_importances_ }).sort_values(by="重要性", ascending=False) print("影响流失的关键特征：\n", feature_importance.head(5))