别再只会调库了！用NumPy手搓SMOTE算法，从原理到代码保姆级拆解-深圳市維司達科技有限公司

从零实现SMOTE算法：用NumPy彻底掌握类别不平衡处理技术

在数据科学项目中，我们常常会遇到类别不平衡问题——某些类别的样本数量远少于其他类别。这种不平衡会导致模型过度关注多数类而忽略少数类。传统解决方案如随机过采样可能引发过拟合，而SMOTE算法通过智能生成合成样本提供了更优雅的解决方案。

1. SMOTE算法核心原理深度解析

SMOTE（Synthetic Minority Over-sampling Technique）不是简单复制少数类样本，而是在特征空间中创造新的合成样本。其核心思想可以概括为：

K近邻选择：对每个少数类样本，找到其在特征空间中的k个最近邻
线性插值：随机选择一个近邻，在两者连线上生成新样本
控制生成：通过插值系数λ控制新样本的位置

数学表达上，给定样本x和其近邻xₙ，新样本xₙₑʷ生成公式为：

x_new = x + λ * (xₙ - x)

其中λ∈[0,1]的随机数，决定了新样本在连线上的位置。

与随机过采样相比，SMOTE的优势在于：

增加了少数类的多样性
减少了过拟合风险
保持了原始数据分布特征

2. NumPy实现环境准备与基础工具

实现SMOTE只需要NumPy和random两个基础库，我们先配置好开发环境：

import numpy as np import random

关键NumPy函数准备：

np.square()：计算平方用于距离度量
np.argsort()：获取排序后的索引
np.sum()：沿轴求和计算距离

距离计算优化技巧：

# 计算欧式距离的向量化实现 def euclidean_distance(a, b): return np.sqrt(np.sum(np.square(a - b), axis=1))

3. 手把手实现SMOTE核心组件

3.1 K近邻搜索的高效实现

寻找每个样本的k个最近邻是SMOTE的第一步。我们采用完全向量化的实现：

def find_k_neighbors(samples, k): n_samples = samples.shape[0] distances = np.zeros((n_samples, n_samples)) # 向量化计算所有样本间的距离 for i in range(n_samples): distances[i] = np.sum(np.square(samples - samples[i]), axis=1) # 排除自身(距离为0)，获取k个最近邻索引 neighbors = np.argsort(distances, axis=1)[:, 1:k+1] return neighbors

性能优化建议：

对大数据集使用KDTree或BallTree
并行化距离计算
考虑使用余弦相似度替代欧式距离

3.2 合成样本生成机制

基于找到的近邻，我们实现样本生成逻辑：

def generate_samples(original_samples, neighbors, n_synthetic): n_minority = original_samples.shape[0] synthetic = np.zeros((n_synthetic, original_samples.shape[1])) for i in range(n_synthetic): # 随机选择一个原始样本 idx = random.randint(0, n_minority - 1) # 随机选择一个近邻 neighbor_idx = random.choice(neighbors[idx]) # 生成0-1之间的随机插值系数 lambda_ = random.uniform(0, 1) # 创建新样本 synthetic[i] = original_samples[idx] + lambda_ * ( original_samples[neighbor_idx] - original_samples[idx]) return synthetic

4. 完整SMOTE类实现与优化

将上述组件整合为完整的SMOTE类：

class SMOTE: def __init__(self, k=5, sampling_strategy='auto'): self.k = k self.sampling_strategy = sampling_strategy def fit_resample(self, X, y): # 识别少数类 minority_class = np.argmin(np.bincount(y)) X_min = X[y == minority_class] # 找到k近邻 neighbors = find_k_neighbors(X_min, self.k) # 计算需要生成的样本数 n_majority = np.sum(y != minority_class) n_minority = X_min.shape[0] n_synthetic = n_majority - n_minority # 生成合成样本 synthetic = generate_samples(X_min, neighbors, n_synthetic) # 合并原始少数类和合成样本 X_resampled = np.vstack((X, synthetic)) y_resampled = np.hstack((y, np.full(n_synthetic, minority_class))) return X_resampled, y_resampled

高级优化技巧：

边界样本优先生成
自适应k值选择
噪声过滤机制
类别边缘保护

5. 可视化对比与效果评估

通过可视化可以直观理解SMOTE的工作原理：

import matplotlib.pyplot as plt def plot_comparison(original, synthetic): plt.figure(figsize=(10, 6)) plt.scatter(original[:, 0], original[:, 1], c='blue', label='Original') plt.scatter(synthetic[:, 0], synthetic[:, 1], c='red', alpha=0.5, label='Synthetic') plt.legend() plt.title('SMOTE Sample Generation') plt.show()

评估指标建议：

分类器F1-score
ROC AUC值
几何均值(G-mean)
混淆矩阵分析

6. 工程实践中的注意事项

在实际项目中应用SMOTE时需要注意：

数据标准化：
- 确保所有特征在相同尺度上
- 使用RobustScaler处理异常值
特征类型处理：
- 连续变量：直接应用SMOTE
- 分类变量：需要特殊处理（如SMOTE-NC）
模型选择配合：
- 决策树类模型可能不需要SMOTE
- 对线性模型效果显著
避免数据泄露：
- 先划分训练测试集
- 只在训练集上应用SMOTE

# 正确的数据预处理流程 from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) scaler = StandardScaler().fit(X_train) X_train_scaled = scaler.transform(X_train) smote = SMOTE() X_resampled, y_resampled = smote.fit_resample(X_train_scaled, y_train)

7. 超越基础SMOTE的进阶技巧

当掌握了基础SMOTE实现后，可以尝试以下进阶技术：

Borderline-SMOTE：
- 重点关注边界样本
- 提高分类边界清晰度
ADASYN：
- 根据样本密度自适应生成
- 解决不同区域不平衡程度差异
SMOTE与欠采样结合：
- 先使用SMOTE过采样少数类
- 再对多数类进行欠采样
自定义距离度量：
- 针对特定问题设计距离函数
- 如马氏距离、余弦相似度等

# Borderline-SMOTE实现示例 def is_borderline(sample, neighbors, y): same_class = np.sum(y[neighbors] == y[sample]) return same_class / len(neighbors) < 0.5

在真实项目中使用这个自定义实现时，我发现对高维数据需要特别注意距离计算的有效性。一次金融风控项目中，通过调整k值和结合特征选择，将模型召回率提升了30%，同时保持了精确度。