news 2026/6/10 14:11:37

DAY27 pipeline管道

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DAY27 pipeline管道

一、知识回顾:

1、转化器和估计器的概念

(1)转换器

转化器通俗的来说就是对数据进行预处理的工具,转换器的特点是无状态的,即它们不会存储任何关于数据的状态信息(指的是不存储内参),根据输入数据学习转换规则(比如函数规律、外参),并将其应用于新的数据。

代码示例:

from sklearn.preprocessing import StandardScaler # 初始化转换器 scaler = StandardScaler() # 1. 学习训练数据的缩放规则(计算均值和标准差),本身不存储数据 scaler.fit(X_train) # 2. 应用规则到训练数据和测试数据 X_train_scaled = scaler.transform(X_train)

(2)估计器

估计器是实现机器学习算法的对象或类。估计器的主要方法是fit和predict。fit方法用于根据输入数据,学习模型的参数和规律,而predict方法用于对新的未标记样本进行预测。估计器的特点是有状态的,它们在训练过程中存储了关于数据的状态信息,以便在预测阶段使用。

参考代码:

from sklearn.linear_model import LinearRegression # 创建一个回归器 model = LinearRegression() # 在训练集上训练模型 model.fit(X_train_scaled, y_train) # 对测试集进行预测 y_pred = model.predict(X_test_scaled)

2、管道工程

机器学习的管道机制通过将多个转换器和估计器按顺序连接在一起,可以构建一个完整的数据处理和模型训练流程。具体而言,在管道机制中,可以使用Pipeline类来组织和连接不同的转换器和估计器。Pipeline类提供了一种简单的方式来定义和管理机器学习任务的流程。

二、pipeline管道架构的搭建

1、导入基础库、 Pipeline 和相关预处理工具、机器学习模型和评估工具,并加载原始数据。

2、分离特征和标签,划分数据集

3、定义预处理步骤

(1)识别原始的 object 列

非数值型->离散变量:

(2)构建处理有序特征的 Pipeline:先填充缺失值,再进行有序编码

(3)构建处理标称特征的 Pipeline:先填充缺失值,再进行独热编码

连续性数值

(4)直接从所有列中排除已知的有序和标称特征,构建处理连续特征的 Pipeline: 先填充缺失值,再进行标准化。

(5)基于以上形成的三种Pipeline构建 ColumnTransformer,将不同的预处理应用于不同的列子集,构造一个完备的转化器。

(6)构建完整的 Pipeline,将预处理器和模型串联起来(加入估计器

(7)使用 Pipeline 对模型进行训练和评估。

@浙大疏锦行

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 15:36:01

PHP 开发者必须掌握的基本 Linux 命令

开始 PHP 开发时,我并没有特别的理由选择 Linux。既不是出于对开源软件的热情,也不是认为 Linux 比 macOS 或 Windows 更优秀。当时只是希望找到一个更轻量、更可定制的开发环境。对我而言,Linux 就是一个可能提升编码效率的工具。随着项目规…

作者头像 李华
网站建设 2026/6/9 17:42:18

用格子玻尔兹曼方法(LBM)模拟不可压缩密度守恒压力驱动流

格子玻尔兹曼方法(LBM)模拟不可压缩密度守恒压力驱动流,MATLAB代码嘿,大家好!今天来聊聊如何使用格子玻尔兹曼方法(LBM)模拟不可压缩密度守恒压力驱动流,并且会用MATLAB代码来实现。…

作者头像 李华
网站建设 2026/6/10 15:30:24

基于LQR控制算法的四轮独立电驱动汽车横向稳定性控制研究

适用方向:基于LQR控制算法的直接横摆力矩控制(DYC)的四轮独立电驱动汽车的横向稳定性控制研究 主要内容:利用carsim建模,在simulink中搭建控制器,然后进行联合。 实现汽车在高速低附着路面下完成双移线工况…

作者头像 李华
网站建设 2026/6/10 16:57:09

IPv6违规外联防御指南:从风险盲区到可管可控

在数字化转型加速推进的今天,IPv6作为下一代互联网协议,正以其庞大的地址空间和高效的通信机制,推动着网络基础设施的全面升级。根据APNIC监测数据,2022年全球IPv6支持能力持续增强,支持率从2021年3月的28.31%显著提升…

作者头像 李华
网站建设 2026/6/9 19:40:50

网型逆变器小干扰稳定性分析与控制策略优化:Simulink仿真探索

跟网型逆变器小干扰稳定性分析与控制策略优化simulink仿真模型和代码 现代逆变技术 阻抗重塑 双锁相环 可附赠参考文献(英文) 和一份与模型完全对应的中文版报告在现代逆变技术的领域中,网型逆变器的小干扰稳定性分析以及控制策略的优化是至关…

作者头像 李华
网站建设 2026/6/10 16:58:51

非支配排序多目标鲸鱼优化算法(NSWOA) Matlab实现探索

非支配排序多目标鲸鱼优化算法(NSWOA) Matlab实现测试函数包括ZDT、DTLZ、WFG、CF和UF共46个等,另外附有一个工程应用案例;评价指标包括超体积度量值HV、反向迭代距离IGD、迭代距离GD和空间评价SP等可提供相关多目标算法定制、创新和改进多目标算法与预测…

作者头像 李华