news 2026/4/23 11:41:47

机器学习概述学习心得

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
机器学习概述学习心得

机器学习一般通过python语言进行学习 ,而python中含有机器学习丰富的第三方库

例如python中的scikit-learn

安装方式也很简单只需要执行: pip install scikit-learn 即可

机器学习的官网是: http://scikit-learn.org/stable/

本篇文章是主要内容是描述一些机器学习中的基本概念

主要内容包括:

- 人工智能发展相关概述

- 机器学习发展三要素

- 机器学习算法分类

- 机器学习基本建模流程

- 机器学习常用术语

- 特征工程概念入门

- 模型拟合问题概念入门

1. 人工智能发展相关概述:

人工智能三大概念: 人工智能(AI) ,机器学习(ML) ,深度学习(DL)

1956年是人工智能的元年 ,人工智能这一词汇在这一年的会议上被提出

人工智能( AI )之父: 约翰麦卡锡

什么是人工智能(AI)呢?

AI->用计算机模拟人脑 ,让计算机能够像人类一样 理性的思考 ,行动

机器学习( ML )之父: 亚瑟塞缪尔

什么是机器学习呢?

ML->赋予计算机学习能力而不需要明确编程的研究领域

人脑处理问题是根据经验 ,通过不断地输入归纳总结 ,从而达到回答一些问题以及对一些事物做出反应

而机器学习与之类似 ,先通过各种数据训练我们的模型 ,让计算机自己找规律找公式 ,从而达到回答一些问题的目的

什么是深度学习(DL)呢?

DL->通过大脑仿生 ,设计一层一层的神将元模拟万事万物

这三者之间的关系就是 AI 包含 ML 包含 DL

规范编程与自动学习

上面解释机器学习时提到的明确编程又名规范编程

规范编程: 程序员根据经验利用手工的 if - else 的方式进行预测

自动学习: 从数据中自动学出规律学出公式

利用进行房价预测时 ,我们根据房子的住房面积 ,可以达到基本预测的效果 ,即面积越大 房价越高

而规范编程就是程序员根据自己的理解根据不同的面积设计程序输出不同的房价

自动学习就是我们将一些 面积与销售价钱 交给计算机 ,让计算机根据数据中的规律帮我们训练出一套公式

机器学习常用术语

上图中例如标签 ,样本等名词就是机器学习中的一些基本术语

在训练模型时 ,我们需要传给电脑很多的数据 ,根据数据的一系列特征 预测出对应的结果

- 样本:一条数据就是一个样本 ,多个样本组合构成数据集

- 特征:就是模型预测的基准 ,有时也被称为属性

- 标签:模型要预测的结果

一个样本即一条数据一般包含 特征 和 标签 两部分

- 数据集分为两部分 训练集 与 测试集 比例一般为 8:2 7:3

训练集就是用于训练模型的数据

测试集就是在模型训练完训练集以后对测试集进行预测 ,来测试模型的准确性

机器学习发展的三要素

就是 数据 算法 算力 也是AI发展的基石

算力:

- CPU 多进行I/O密集型操作

- GPU 多进行并行计算

- TPU 多进行大型计算

机器学习算法分类

有监督 无监督 半监督

- 有监督的意思就是有特征同时有标签

有监督根据标签的不同情况又分为两类

如果标签是不连续的 ,就属于是分类问题 分类问题一般分为: 二分类 ,多分类

如果标签是连续的 ,就属于是回归问题

- 无监督的意思就是有特征但是没有标签

这时就需要根据样本间的相似性 ,对样本进行聚类 ,以发现事物内部结构及相互关系

- 半监督的意思就是一部分有标签 一部分没有标签

半监督的工作原理就是先让专家对于少量数据标注上专业的标签 ,再利用有标签的数据训练出一个模型 ,在利用该模型去套用没有标签的数据 ,最后通过询问领域专家分类结果与模型分类结果作对比 这样做就可以大幅度降低专家标记的人工成本

机器学习建模流程

- 准备数据

传入文本 ,图像 ,等数据给计算机

- 数据预处理

对于数据的筛查 ,一般用于处理数据中的缺失值以及异常值

- 特征工程

- 特征提取

- 特征预处理

- 特征降维 ,选择 ,组合

- 模型训练

- 线性回归

- 逻辑回归

- 决策树

- GBDT

- 模型预测

通过上一步训练的模型 ,对测试集数据或者测试集以外的数据进行预测

- 模型评估

- 分类评估指标

- 回归评估指标

- 聚类评估指标

- 模型部署

- 测试无问题后 ,上线使用

特征工程概念入门

利用专业背景知识和技巧处理数据 ,让机器学习算法效果更好 ,这样的过程就是特征工程

一句话概括数据与特征工程的重要性:

数据和特征决定了机器学习的上限 ,而模型和算法只是逼近这个上线而已

特征工程一般分为:

- 特征提取
- 从原始数据中只提取与任务相关的特征, 构成特征向量(由专家完成)
- 特征预处理
- 因量纲问题 ,有些特征权重对模型影响大 ,有些影响小
- 解决 :
- 归一化: (当前值-最小值)/)(最大值-最小值)
- 标准化
- 特征降维
- 原始数据维度降低 ,一般会对原始数据产生影响
- 特征选择
- 原始数据特征很多 ,选择与任务相关的其中一个特征集合子集 ,不会改变原数据
- 特征组合
- 多个特征合并成一个特征 ,利用乘法或加法来完成

模型拟合问题概述

模型拟合问题一般出现在模型训练的过程中

分为 欠拟合 正好拟合 过拟合 三种

我们追求的就是正好拟合

过拟合: 太复杂了, 学到了脏数据
欠拟合: 太简单了, 条件缺失

对于过拟合与欠拟合的分类标准就是 通过 训练集 与 测试集 来进行分类

欠拟合: 在训练集和测试集上面的表现情况都不好

过拟合: 在训练集上表现得很好 ,但是在测试集上表现得不好

泛化: 是机器学习中来评估模型拟合情况的专有名词

泛化能力越好 ,模型拟合能力越好

当两个模型之间泛化能力相同时, 需要遵循奥卡姆提到原则:

即较简单的模型比更加复杂的模型更可取

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 10:49:06

[特殊字符]_高并发场景下的框架选择:从性能数据看技术决策[20260113172030]

作为一名经历过无数生产环境考验的资深工程师,我深知在高并发场景下选择合适的技术栈是多么重要。最近我参与了一个日活千万级的电商平台重构项目,这个项目让我重新思考了Web框架在高并发环境下的表现。今天我要分享的是基于真实生产数据的框架性能分析&…

作者头像 李华
网站建设 2026/4/17 22:12:10

手把手分析一位全加器硬件搭建过程(新手友好)

从零开始,用74HC芯片手搭一位全加器:不只是“112”的学问你有没有想过,当你在电脑上敲下1 1,屏幕上跳出来那个“2”,背后其实是一连串微小电子信号的精密舞蹈?而这场舞会的第一步,就发生在一种…

作者头像 李华
网站建设 2026/4/20 12:21:48

基于uds31服务的ECU刷写启动完整指南

用好UDS31服务,让ECU刷写不再“卡在起跑线”你有没有遇到过这样的情况:OTA升级流程一切就绪,固件包也准备好了,结果一发Request Download (0x34),ECU直接回个NRC 0x22——“条件不满足”。一头雾水?别急&am…

作者头像 李华
网站建设 2026/4/23 10:48:56

COMSOL仿真入门指南:从零开始的边界设置、网格划分与数据处理

套餐一:针板电极 棒板电极 平板电极击穿电压 静电场仿真 套餐二:COMSOL仿真教学0基础讲解教程 (边界设置 网格 数据)3课 套餐三:Comsol等离子体模块 空气棒板放电 默认是套餐二,需要其他的请指明初次接触CO…

作者头像 李华
网站建设 2026/4/23 10:50:00

Keil5下载后编译错误排查:系统学习配置要点

Keil5装完却编译不过?别急,这才是真正的问题所在你有没有过这样的经历:花了一小时下载、安装Keil MDK(俗称Keil5),兴冲冲打开μVision新建工程,导入代码,点击“Build”——结果瞬间弹…

作者头像 李华
网站建设 2026/4/18 10:40:58

I2C总线入门指南:核心要点一文说清

掌握I2C总线:从原理到实战的完整指南在嵌入式系统设计中,你是否曾为外设太多、引脚不够而头疼?是否遇到过传感器“不响应”、通信时断时续的诡异问题?如果你的答案是“有”,那么很可能,你需要重新认识一个看…

作者头像 李华