news 2026/4/23 12:07:53

人工智能之核心基础 机器学习 第七章 监督学习总结

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
人工智能之核心基础 机器学习 第七章 监督学习总结

人工智能之核心基础 机器学习

第七章 监督学习总结


文章目录

  • 人工智能之核心基础 机器学习
    • 一、监督学习核心任务回顾
    • 二、六大主流监督学习算法详解对比
      • 1. **线性回归 & 逻辑回归**
      • 2. **决策树(Decision Tree)**
      • 3. **随机森林(Random Forest)**
      • 4. **梯度提升树(XGBoost / LightGBM)**
      • 5. **支持向量机(SVM)**
      • 6. **朴素贝叶斯(Naive Bayes)**
    • 三、算法选择决策树
    • 四、各算法核心优缺点速查表
    • 五、代码实现统一模板(Scikit-learn)
    • 六、总结:没有“最好”,只有“最合适”
  • 资料关注

一、监督学习核心任务回顾

监督学习解决两类问题:

任务类型目标输出形式典型场景
分类预测离散类别标签“是/否”、“猫/狗/鸟”垃圾邮件识别、疾病诊断
回归预测连续数值房价、温度、销售额房价预测、销量预测

✅ 所有以下算法均可用于分类或回归(部分需变体),但各有侧重。


二、六大主流监督学习算法详解对比

1.线性回归 & 逻辑回归

特性线性回归逻辑回归
任务类型回归分类(主要是二分类)
核心思想拟合一条直线(超平面)用Sigmoid将线性输出转为概率
损失函数平方误差(MSE)交叉熵损失
输出解释预测值(如300万元)属于正类的概率(如85%)
可解释性⭐⭐⭐⭐⭐(权重=特征重要性)⭐⭐⭐⭐(系数符号表示影响方向)
是否需要特征缩放否(但推荐)是(尤其用梯度下降时)
典型应用房价、销量预测疾病风险、用户转化预测

💡关键区别

  • 线性回归 → 预测“多少”
  • 逻辑回归 → 预测“是不是”

2.决策树(Decision Tree)

特性说明
任务类型分类 & 回归
核心思想if-else规则链,分而治之
特征选择信息增益、Gini不纯度
可解释性⭐⭐⭐⭐⭐(可视化规则)
是否需要特征缩放❌ 不需要
处理非线性✅ 天然支持
缺点容易过拟合(需剪枝)
典型应用业务规则提取、客户分群

🌳优势:像人一样思考,业务人员能看懂!


3.随机森林(Random Forest)

特性说明
本质决策树的集成(Bagging)
核心机制多棵树投票(分类)/平均(回归)
随机性来源样本随机(Bootstrap)+ 特征随机
可解释性⭐⭐(黑盒,但可输出特征重要性)
抗过拟合✅ 强(比单棵树好得多)
训练速度中等(可并行)
典型应用通用分类/回归、特征重要性分析

🎯一句话:把多个“不太准”的树组合成一个“很准”的模型。


4.梯度提升树(XGBoost / LightGBM)

特性说明
本质决策树的集成(Boosting)
核心机制串行训练,每棵树纠正前一棵的错误
优化目标最小化损失函数的梯度
精度⭐⭐⭐⭐⭐(Kaggle常胜将军)
可解释性⭐⭐(提供SHAP值可解释)
调参难度较高(需调 learning_rate, n_estimators 等)
典型应用竞赛、高精度工业模型

XGBoost vs LightGBM

  • XGBoost:精度高,功能全
  • LightGBM:更快、更省内存,适合大数据

5.支持向量机(SVM)

特性说明
任务类型主要用于分类(回归可用SVR)
核心思想找最大间隔的分隔超平面
处理非线性✅ 通过核函数(RBF最常用)
可解释性⭐(黑盒,仅支持向量有意义)
是否需要特征缩放✅ 必须!(尤其RBF核)
数据规模适应性❌ 不适合大数据(>10万样本慢)
典型应用文本分类、中小规模高维数据

🔑关键参数C(正则强度)、gamma(RBF核影响范围)


6.朴素贝叶斯(Naive Bayes)

特性说明
任务类型分类(不用于回归)
核心假设特征条件独立(“朴素”之处)
训练速度⭐⭐⭐⭐⭐(极快)
内存占用极小
可解释性⭐⭐(可看特征对类别的贡献)
典型变体高斯NB(连续)、多项式NB(文本)、伯努利NB(二值)
最佳场景✅ 文本分类(垃圾邮件、情感分析)

📧行业事实:尽管简单,仍是文本分类首选baseline


三、算法选择决策树


四、各算法核心优缺点速查表

算法优点缺点适用场景
线性/逻辑回归可解释强、训练快、理论清晰只能学线性关系基线模型、可解释需求
决策树可视化、无需预处理、处理非线性易过拟合、不稳定规则提取、快速原型
随机森林稳定、抗过拟合、自动特征重要性黑盒、内存大通用任务、特征筛选
XGBoost/LightGBM精度高、支持多种目标调参复杂、训练慢竞赛、高精度需求
SVM高维有效、泛化好大数据慢、难调参文本、中小规模数据
朴素贝叶斯极快、小样本有效、文本王者独立假设强、概率不准垃圾邮件、情感分析

五、代码实现统一模板(Scikit-learn)

fromsklearn.model_selectionimporttrain_test_splitfromsklearn.preprocessingimportStandardScalerfromsklearn.metricsimportaccuracy_score,mean_squared_error# 1. 数据准备X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2)# 2. 特征缩放(仅SVM、逻辑回归等需要)ifmodel_needs_scaling:scaler=StandardScaler()X_train=scaler.fit_transform(X_train)X_test=scaler.transform(X_test)# 3. 模型训练model.fit(X_train,y_train)# 4. 预测与评估y_pred=model.predict(X_test)ifclassification:print("准确率:",accuracy_score(y_test,y_pred))else:print("RMSE:",mean_squared_error(y_test,y_pred,squared=False))

Scikit-learn统一接口.fit(),.predict(),.score()
除XGBoost/LightGBM需单独安装,其余均内置!


六、总结:没有“最好”,只有“最合适”

需求推荐算法
快速出结果朴素贝叶斯、逻辑回归
业务可解释决策树、线性模型
高精度竞赛XGBoost、LightGBM
文本分类朴素贝叶斯 > SVM(线性) > 随机森林
中小规模通用随机森林(首选)、SVM
大数据回归LightGBM、随机森林

🎯黄金建议
先跑一个简单模型(如逻辑回归或朴素贝叶斯)作为baseline
再逐步尝试复杂模型。很多时候,简单模型已经足够好!


资料关注

公众号:咚咚王
gitee:https://gitee.com/wy18585051844/ai_learning

《Python编程:从入门到实践》
《利用Python进行数据分析》
《算法导论中文第三版》
《概率论与数理统计(第四版) (盛骤) 》
《程序员的数学》
《线性代数应该这样学第3版》
《微积分和数学分析引论》
《(西瓜书)周志华-机器学习》
《TensorFlow机器学习实战指南》
《Sklearn与TensorFlow机器学习实用指南》
《模式识别(第四版)》
《深度学习 deep learning》伊恩·古德费洛著 花书
《Python深度学习第二版(中文版)【纯文本】 (登封大数据 (Francois Choliet)) (Z-Library)》
《深入浅出神经网络与深度学习+(迈克尔·尼尔森(Michael+Nielsen)》
《自然语言处理综论 第2版》
《Natural-Language-Processing-with-PyTorch》
《计算机视觉-算法与应用(中文版)》
《Learning OpenCV 4》
《AIGC:智能创作时代》杜雨+&+张孜铭
《AIGC原理与实践:零基础学大语言模型、扩散模型和多模态模型》
《从零构建大语言模型(中文版)》
《实战AI大模型》
《AI 3.0》

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/22 5:04:21

AD导出Gerber文件教程:多层板叠层设置全面讲解

Altium Designer多层板叠层设计与Gerber输出实战指南在嵌入式系统和高速电路开发中,PCB设计早已不再是“画线打孔”的简单操作。随着产品对信号完整性、电源完整性和电磁兼容性的要求越来越高,如何正确设置多层板叠层并导出无误的制造文件,已…

作者头像 李华
网站建设 2026/4/23 10:48:44

打造企业级语音客服系统基础:Fun-ASR识别历史管理功能揭秘

打造企业级语音客服系统基础:Fun-ASR识别历史管理功能揭秘 在现代企业服务数字化转型的浪潮中,语音交互正从“能听清”迈向“可运营”。尤其是在客服场景下,每天成千上万通电话背后蕴藏着大量客户意图、服务质量与业务痛点信息。然而&#x…

作者头像 李华
网站建设 2026/4/23 10:49:56

商业授权解除限制:支持百级并发访问

商业授权解除限制:支持百级并发访问 —— Fun-ASR WebUI 技术深度解析 在企业语音智能化需求爆发的今天,一个现实问题反复浮现:如何在保障数据安全的前提下,实现高效率、低成本、可扩展的语音识别能力?尤其是在金融客服…

作者头像 李华
网站建设 2026/4/22 19:37:41

Prometheus监控指标暴露:GPU利用率实时观测

Prometheus监控指标暴露:GPU利用率实时观测 在AI大模型推理服务日益普及的今天,一个看似流畅运行的语音识别系统,可能正悄悄浪费着昂贵的GPU资源。你有没有遇到过这样的情况:用户抱怨响应慢,但查看服务器时却发现CPU风…

作者头像 李华
网站建设 2026/4/23 10:47:03

按量付费灵活选择:适合临时高峰使用场景

按量付费灵活选择:适合临时高峰使用场景 在一场突发新闻直播中,记者需要将长达数小时的现场采访音频快速转写成文字稿;某企业召开年度战略会议,上百名员工参与讨论,会后急需生成结构化的会议纪要;在线教育平…

作者头像 李华
网站建设 2026/4/23 10:50:13

无人机空中广播识别:高空远距离拾音挑战

无人机空中广播识别:高空远距离拾音挑战 在城市防汛巡查的清晨,一架无人机悄然升空,悬停于30米高空,静静“聆听”地面广播喇叭中传出的应急通知。风声呼啸,音频微弱,但地面指挥中心的大屏上,文…

作者头像 李华