别再只盯着K-Means了！用Python实战5种聚类算法，手把手教你选对模型-深圳市維司達科技有限公司

实战指南：Python中5种聚类算法的深度对比与场景化选择

当面对电商用户行为数据、社交网络关系或传感器采集的高维数据时，大多数数据分析师的第一反应是套用K-Means算法。但真实世界的数据分布远比球形簇复杂——可能是蜿蜒的流形结构、密度不均的星团，或是嵌套的层级关系。本文将带您突破K-Means的局限，通过Python代码实战解析5种主流聚类算法的适用场景，并构建一套科学的模型选择框架。

1. 聚类算法的核心挑战与评估体系

在电商用户分群项目中，我们常遇到这样的困境：同样的RFM（最近购买时间、购买频率、消费金额）数据，业务部门期望识别出高价值用户群，风控团队则关注异常交易模式。这种目标差异直接影响了算法选择。

1.1 数据特性与算法匹配矩阵

数据特征	K-Means	DBSCAN	层次聚类	谱聚类	GMM
高维稀疏性	△	○	○	●	△
噪声容忍度	×	●	△	△	○
非球形簇识别	×	●	△	●	○
簇大小均衡要求	●	×	●	△	●
计算复杂度	○	△	×	×	○

（●表示优秀，○表示中等，△表示有限，×表示不适用）

1.2 聚类质量评估的三重维度

from sklearn.metrics import silhouette_score, calinski_harabasz_score def evaluate_clusters(X, labels): # 轮廓系数（-1到1，越大越好） sil = silhouette_score(X, labels) # Calinski-Harabasz指数（越大越好） ch = calinski_harabasz_score(X, labels) # 戴维森堡丁指数（越小越好） db = davies_bouldin_score(X, labels) return {'Silhouette': sil, 'CH_Index': ch, 'DB_Index': db}

注意：当数据存在密度差异时，轮廓系数可能产生误导，建议结合可视化分析

2. 五大算法实战解析与代码实现

2.1 DBSCAN：密度聚类的实战技巧

面对城市GPS热点检测这类密度不均的场景，DBSCAN的两个关键参数决定成败：

from sklearn.cluster import DBSCAN import numpy as np # 电商用户停留位置聚类示例 hotspots = np.loadtxt('user_gps.csv', delimiter=',') db = DBSCAN(eps=0.005, min_samples=20).fit(hotspots) # 核心参数优化建议 eps_grid = np.linspace(0.001, 0.01, 10) min_samples_grid = [5, 10, 20, 50] for eps in eps_grid: for min_samples in min_samples_grid: labels = DBSCAN(eps=eps, min_samples=min_samples).fit_predict(hotspots) n_clusters = len(set(labels)) - (1 if -1 in labels else 0) print(f"eps={eps:.3f}, min_samples={min_samples}: {n_clusters} clusters")

典型应用场景：

异常检测（将噪声点视为异常）
地理空间热点分析
可变密度用户分群

2.2 高斯混合模型(GMM)：软聚类的概率视角

当用户行为数据存在重叠簇时，GMM提供的概率归属更具业务解释性：

from sklearn.mixture import GaussianMixture import pandas as pd # 用户消费行为数据 data = pd.read_csv('user_behavior.csv') gmm = GaussianMixture(n_components=3, covariance_type='full') gmm.fit(data[['purchase_freq', 'avg_spend']]) # 获取每个样本属于各簇的概率 probs = gmm.predict_proba(data[['purchase_freq', 'avg_spend']]) # 可视化概率分布 plt.scatter(data['purchase_freq'], data['avg_spend'], c=probs.argmax(axis=1), alpha=0.5) plt.colorbar()

提示：covariance_type参数选择：
'full'：每个簇有自己的任意协方差矩阵
'tied'：所有簇共享相同协方差矩阵
'diag'：每个簇的对角协方差矩阵
'spherical'：每个簇的方差相同

3. 算法选择决策框架

3.1 基于数据特征的决策树

graph TD A[数据特征] --> B{是否已知簇数量?} B -->|是| C{簇形状是否球形?} B -->|否| D[DBSCAN/OPTICS] C -->|是| E[K-Means/GMM] C -->|否| F[谱聚类/DBSCAN] A --> G{是否有噪声?} G -->|是| D G -->|否| H{需要层次结构?} H -->|是| I[层次聚类]

3.2 业务目标导向的选择策略

案例：电商用户生命周期管理

目标：识别6个典型用户阶段
- 方案：K-Means（明确簇数量）
目标：发现异常购买模式
- 方案：DBSCAN（自动检测离群点）
目标：理解用户转化路径
- 方案：层次聚类（展示簇演化过程）

4. 高级技巧与性能优化

4.1 大规模数据下的聚类加速

# 使用MiniBatchKMeans处理百万级用户数据 from sklearn.cluster import MiniBatchKMeans from sklearn.feature_extraction.text import HashingVectorizer # 文本数据聚类示例 vectorizer = HashingVectorizer(n_features=1000) X = vectorizer.fit_transform(documents) mbk = MiniBatchKMeans(n_clusters=100, batch_size=1000) mbk.fit(X) # 与标准K-Means效果对比 from sklearn.cluster import KMeans kmeans = KMeans(n_clusters=100) %timeit kmeans.fit(X) # 标准版本 %timeit mbk.fit(X) # 小批量版本

4.2 混合特征处理方案

当数据包含数值型和类别型特征时：

from sklearn.compose import ColumnTransformer from sklearn.preprocessing import StandardScaler, OneHotEncoder preprocessor = ColumnTransformer( transformers=[ ('num', StandardScaler(), ['age', 'income']), ('cat', OneHotEncoder(), ['gender', 'city']) ]) # 在聚类流程中集成预处理 from sklearn.pipeline import Pipeline pipe = Pipeline([ ('prep', preprocessor), ('cluster', KMeans(n_clusters=5)) ]) pipe.fit(customer_data)

5. 实战案例：零售用户分群全流程

5.1 数据准备与探索

import seaborn as sns retail = pd.read_csv('retail_transactions.csv') # 构建RFM特征 rfm = retail.groupby('customer_id').agg({ 'transaction_date': lambda x: (pd.to_datetime('today') - x.max()).days, 'transaction_id': 'count', 'amount': 'sum' }).rename(columns={ 'transaction_date': 'recency', 'transaction_id': 'frequency', 'amount': 'monetary' }) # 数据分布可视化 sns.pairplot(rfm.apply(np.log1p))

5.2 多算法对比实施

from sklearn.preprocessing import PowerTransformer # 数据标准化 pt = PowerTransformer() X = pt.fit_transform(rfm) algorithms = { 'K-Means': KMeans(n_clusters=5), 'DBSCAN': DBSCAN(eps=0.5, min_samples=10), 'GMM': GaussianMixture(n_components=5), 'Agglomerative': AgglomerativeClustering(n_clusters=5) } results = {} for name, algo in algorithms.items(): labels = algo.fit_predict(X) results[name] = evaluate_clusters(X, labels) pd.DataFrame(results).T

5.3 业务解释与落地

# 最佳模型结果分析 best_labels = algorithms['GMM'].fit_predict(X) rfm['cluster'] = best_labels cluster_profiles = rfm.groupby('cluster').agg({ 'recency': ['mean', 'std'], 'frequency': ['mean', 'std'], 'monetary': ['mean', 'std'] }) # 生成业务报告 profiles = { 0: '高价值活跃用户', 1: '新用户潜力群体', 2: '流失风险用户', 3: '低频高客单价用户', 4: '促销敏感用户' } rfm['segment'] = rfm['cluster'].map(profiles)