机器学习数据准备七日速成：从清洗到特征工程实战-深圳市維司達科技有限公司

1. 机器学习数据准备七日速成指南

刚入行时我总纳闷：为什么同样的算法别人跑得比我准？直到有次review同事代码才发现，人家在数据准备环节花了80%的时间。这就像做菜，食材处理才是真正的功夫活。今天我们就用七天时间，手把手带你掌握数据准备的完整流程，从原始数据到模型就绪状态，每个环节都配有可直接复用的代码模板和实战技巧。

2. 数据准备核心框架解析

2.1 数据准备的价值链

数据质量决定模型性能上限。根据微软研究院统计，数据问题导致的模型失效占比高达64%。完整的数据准备包含五个关键阶段：

数据获取：API爬取/本地加载（注意法律合规）
数据清洗：处理缺失值/异常值/重复值
特征工程：特征提取/转换/选择
数据分割：训练集/验证集/测试集划分
数据增强：SMOTE过采样等技巧

关键认知：数据不是清洗得越干净越好，要保留真实数据分布特性。我曾过度清洗电商评论数据，结果模型无法识别真实场景中的网络用语。

2.2 工具选型建议

根据数据规模选择工具链：

小数据量（<1GB）：Pandas + Scikit-learn
中等数据（1-10GB）：Dask + Vaex
大数据（>10GB）：PySpark + Koalas

# 大数据环境配置示例 from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName("DataPrep") \ .config("spark.executor.memory", "8g") \ .getOrCreate()

3. 七日实训手册

3.1 Day1-数据获取与探索

实战1：用Python读取不同格式数据

# 读取CSV时处理编码问题 import chardet with open('data.csv', 'rb') as f: result = chardet.detect(f.read()) df = pd.read_csv('data.csv', encoding=result['encoding'])

实战2：快速统计诊断

# 自动化生成数据报告 from pandas_profiling import ProfileReport profile = ProfileReport(df, title="Data Report") profile.to_file("report.html")

3.2 Day2-缺失值处理进阶

方案对比表：

处理方法	适用场景	优缺点	代码示例
删除法	缺失<5%	可能引入偏差	`df.dropna()`
均值填充	数值型	破坏分布	`df.fillna(df.mean())`
KNN填充	特征相关性强	计算成本高	`from sklearn.impute import KNNImputer`
预测填充	复杂模式	可能过拟合	建立预测模型填充

避坑指南：时间序列数据禁止随机填充！应采用前向填充（ffill）或插值法。

3.3 Day3-异常值检测实战

IQR方法改进版：

def modified_iqr(df, col, k=1.5): Q1 = df[col].quantile(0.25) Q3 = df[col].quantile(0.75) IQR = Q3 - Q1 lower_bound = Q1 - k*IQR upper_bound = Q3 + k*IQR return df[(df[col] >= lower_bound) & (df[col] <= upper_bound)]

可视化检测技巧：

import seaborn as sns sns.boxplot(x=df['age']) # 箱线图 sns.scatterplot(x='income', y='spending', data=df) # 散点图

3.4 Day4-特征工程精要

日期特征分解示例：

df['date'] = pd.to_datetime(df['date']) df['day_of_week'] = df['date'].dt.dayofweek df['is_weekend'] = df['day_of_week'].isin([5,6]).astype(int)

文本特征处理流水线：

from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.decomposition import TruncatedSVD tfidf = TfidfVectorizer(max_features=5000) svd = TruncatedSVD(n_components=300) pipeline = make_pipeline(tfidf, svd)

3.5 Day5-数据分割策略

时间敏感型数据分割：

split_date = '2023-01-01' train = df[df['date'] < split_date] test = df[df['date'] >= split_date]

分层抽样实现：

from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, stratify=y, random_state=42)

3.6 Day6-数据增强技巧

图像数据增强示例：

from albumentations import ( HorizontalFlip, RandomBrightnessContrast, ShiftScaleRotate) aug = Compose([ HorizontalFlip(p=0.5), RandomBrightnessContrast(p=0.2), ShiftScaleRotate(shift_limit=0.1, scale_limit=0.1, rotate_limit=15) ])

表格数据SMOTE实现：

from imblearn.over_sampling import SMOTE sm = SMOTE(k_neighbors=3) X_res, y_res = sm.fit_resample(X_train, y_train)

3.7 Day7-完整项目实战

医疗数据预处理案例：

处理DICOM影像元数据
处理临床表格中的混合类型缺失值
构建患者时间序列特征
处理类别不平衡问题

# DICOM元数据提取 import pydicom ds = pydicom.dcmread("image.dcm") metadata = { 'PatientAge': ds.PatientAge, 'Modality': ds.Modality, 'PixelSpacing': ds.PixelSpacing }

4. 工程化部署要点

4.1 构建可复用的数据管道

from sklearn.pipeline import Pipeline from sklearn.compose import ColumnTransformer preprocessor = ColumnTransformer( transformers=[ ('num', numeric_transformer, numeric_features), ('cat', categorical_transformer, categorical_features) ]) pipeline = Pipeline(steps=[ ('preprocessor', preprocessor), ('imputer', SimpleImputer(strategy='median')) ])

4.2 监控数据漂移

from alibi_detect import KSDrift drift_detector = KSDrift( p_val=0.05, X_ref=X_train[:1000] ) preds = drift_detector.predict(X_new)

5. 常见问题排雷手册

问题现象	可能原因	解决方案
模型过拟合验证集	数据泄露	检查预处理是否在分割前进行
线上效果差	数据分布漂移	增加数据监控模块
类别权重无效	样本重复	检查SMOTE后的重复样本
内存溢出	独热编码爆炸	改用目标编码或嵌入

我在金融风控项目中曾遇到一个典型案例：原始数据中"职业"字段包含3000多个类别，直接独热编码导致特征维度爆炸。最终采用以下解决方案：

合并低频类别为"其他"
使用目标编码（Target Encoding）
添加高斯噪声防止过拟合

from category_encoders import TargetEncoder encoder = TargetEncoder(cols=['occupation']) X_train = encoder.fit_transform(X_train, y_train)

机器学习数据准备七日速成：从清洗到特征工程实战

1. 机器学习数据准备七日速成指南

2. 数据准备核心框架解析

2.1 数据准备的价值链

2.2 工具选型建议

3. 七日实训手册

3.1 Day1-数据获取与探索

3.2 Day2-缺失值处理进阶

3.3 Day3-异常值检测实战

3.4 Day4-特征工程精要

3.5 Day5-数据分割策略

3.6 Day6-数据增强技巧

3.7 Day7-完整项目实战

4. 工程化部署要点

4.1 构建可复用的数据管道

4.2 监控数据漂移

5. 常见问题排雷手册

尤克里里必备练琴工具，有了它们学琴更快捷

从PULSE到MAE：我的AI图像修复踩坑全记录（附Win10/Mac环境配置与百度云资源）

九科信息，以企业级自动化Agent重构数智生产力

暗黑2存档编辑器d2s-editor：5分钟学会修改角色属性的完整指南

5个理由告诉你：为什么Formily是构建复杂表单的终极解决方案！

什么是防爆型滤油机？适用于哪些工业场所？

1. 机器学习数据准备七日速成指南

2. 数据准备核心框架解析

2.1 数据准备的价值链

2.2 工具选型建议

3. 七日实训手册

3.1 Day1-数据获取与探索

3.2 Day2-缺失值处理进阶

3.3 Day3-异常值检测实战

3.4 Day4-特征工程精要

3.5 Day5-数据分割策略

3.6 Day6-数据增强技巧

3.7 Day7-完整项目实战

4. 工程化部署要点

4.1 构建可复用的数据管道

4.2 监控数据漂移

5. 常见问题排雷手册

尤克里里必备练琴工具，有了它们学琴更快捷

从PULSE到MAE：我的AI图像修复踩坑全记录（附Win10/Mac环境配置与百度云资源）

​九科信息，以企业级自动化Agent重构数智生产力

暗黑2存档编辑器d2s-editor：5分钟学会修改角色属性的完整指南

5个理由告诉你：为什么Formily是构建复杂表单的终极解决方案！

什么是防爆型滤油机？适用于哪些工业场所？

九科信息，以企业级自动化Agent重构数智生产力