别再只懂PCA了！用Python手写LDA降维，从鸢尾花数据集实战看分类效果-深圳市維司達科技有限公司

从鸢尾花分类实战看LDA降维：Python手写实现与效果对比

当数据科学家面对高维数据时，降维技术是必不可少的工具。虽然PCA广为人知，但在处理带有类别标签的数据时，线性判别分析（LDA）往往能带来更好的分类效果。本文将带你用Python从零实现LDA算法，并在经典的鸢尾花数据集上验证其性能。

1. 环境准备与数据加载

在开始之前，我们需要准备好Python环境和必要的数据集。与PCA不同，LDA是一种监督学习算法，这意味着它需要利用数据的类别标签信息。

首先安装必要的库：

pip install numpy matplotlib scikit-learn

加载鸢尾花数据集并查看数据结构：

from sklearn.datasets import load_iris import numpy as np iris = load_iris() X = iris.data y = iris.target feature_names = iris.feature_names target_names = iris.target_names print(f"特征矩阵形状: {X.shape}") print(f"类别标签: {np.unique(y)}") print(f"特征名称: {feature_names}") print(f"类别名称: {target_names}")

鸢尾花数据集包含150个样本，每个样本有4个特征（萼片长度、萼片宽度、花瓣长度、花瓣宽度），分为3个类别。我们的目标是将这4维数据降到更低的维度，同时最大化类别间的可分性。

2. LDA算法原理与实现

LDA的核心思想是"投影后类内方差最小，类间方差最大"。与PCA寻找最大方差方向不同，LDA寻找能最好区分不同类别的投影方向。

2.1 关键数学概念

LDA依赖于几个重要的矩阵计算：

类内散度矩阵(Sw)：衡量同一类别内数据的离散程度
类间散度矩阵(Sb)：衡量不同类别中心之间的距离
总体散度矩阵(St)：Sw + Sb

我们的目标是找到投影矩阵W，使得投影后的数据满足：

J(W) = |WᵀSbW| / |WᵀSwW|

最大化这个准则函数。

2.2 Python实现步骤

下面是LDA的核心实现代码：

class LDA: def __init__(self, n_components=None): self.n_components = n_components def fit(self, X, y): n_features = X.shape[1] classes = np.unique(y) n_classes = len(classes) if self.n_components is None: self.n_components = n_classes - 1 # 计算总体均值 mean_total = np.mean(X, axis=0) # 初始化Sw和Sb Sw = np.zeros((n_features, n_features)) Sb = np.zeros((n_features, n_features)) # 计算类内和类间散度矩阵 for c in classes: X_c = X[y == c] mean_c = np.mean(X_c, axis=0) # 类内散度 Sw += (X_c - mean_c).T.dot(X_c - mean_c) # 类间散度 n_c = X_c.shape[0] mean_diff = (mean_c - mean_total).reshape(n_features, 1) Sb += n_c * (mean_diff).dot(mean_diff.T) # 计算Sw⁻¹Sb的特征值和特征向量 eigenvalues, eigenvectors = np.linalg.eig(np.linalg.inv(Sw).dot(Sb)) # 按特征值降序排序 idx = eigenvalues.argsort()[::-1] eigenvalues = eigenvalues[idx] eigenvectors = eigenvectors[:, idx] # 存储投影矩阵 self.components_ = eigenvectors[:, :self.n_components] def transform(self, X): return X.dot(self.components_)

这段代码实现了LDA的核心算法，包括类内散度矩阵和类间散度矩阵的计算，以及求解广义特征值问题。

3. 在鸢尾花数据集上的应用

现在我们将实现的LDA应用到鸢尾花数据集上，并可视化降维结果。

3.1 数据预处理

首先对数据进行标准化处理：

from sklearn.preprocessing import StandardScaler scaler = StandardScaler() X_std = scaler.fit_transform(X)

3.2 LDA降维

使用我们实现的LDA类进行降维：

lda = LDA(n_components=2) lda.fit(X_std, y) X_lda = lda.transform(X_std)

3.3 结果可视化

将降维后的数据可视化：

import matplotlib.pyplot as plt plt.figure(figsize=(10, 6)) for label, name in enumerate(target_names): plt.scatter(X_lda[y == label, 0], X_lda[y == label, 1], label=name, alpha=0.8) plt.xlabel('LD1') plt.ylabel('LD2') plt.title('LDA投影后的鸢尾花数据集') plt.legend() plt.grid() plt.show()

从可视化结果可以清楚地看到，三个类别在LDA投影后的二维空间中得到了很好的分离。

4. LDA与PCA的对比分析

为了更深入理解LDA的特性，我们将其与PCA进行对比。

4.1 PCA实现与结果

使用scikit-learn实现PCA：

from sklearn.decomposition import PCA pca = PCA(n_components=2) X_pca = pca.fit_transform(X_std) plt.figure(figsize=(10, 6)) for label, name in enumerate(target_names): plt.scatter(X_pca[y == label, 0], X_pca[y == label, 1], label=name, alpha=0.8) plt.xlabel('PC1') plt.ylabel('PC2') plt.title('PCA投影后的鸢尾花数据集') plt.legend() plt.grid() plt.show()

4.2 两种方法的比较

特性	LDA	PCA
监督/无监督	监督学习	无监督学习
目标	最大化类间可分性	保留最大方差
降维限制	最多降到类别数-1维	无限制
适用场景	分类问题	通用降维
对类别信息的利用	充分利用	不利用
计算复杂度	较高	较低

从鸢尾花数据集的降维结果来看，LDA在保持类别可分性方面明显优于PCA。这是因为LDA专门针对分类问题设计，而PCA只是寻找数据中方差最大的方向。

5. 实际应用中的注意事项

虽然LDA在分类问题上表现优异，但在实际应用中仍需注意以下几点：

数据分布假设：LDA假设数据服从高斯分布，当这一假设不成立时，效果可能不佳
类别平衡：LDA对类别不平衡数据敏感，可能需要先进行平衡处理
奇异矩阵问题：当样本数小于特征数时，Sw可能不可逆，需要正则化处理
非线性问题：对于非线性可分数据，可能需要核技巧或其他非线性方法

下面是一个处理奇异矩阵问题的改进版本：

class RegularizedLDA(LDA): def fit(self, X, y, reg_param=0.001): n_features = X.shape[1] classes = np.unique(y) # 计算总体均值 mean_total = np.mean(X, axis=0) # 初始化Sw和Sb Sw = np.zeros((n_features, n_features)) Sb = np.zeros((n_features, n_features)) # 计算类内和类间散度矩阵 for c in classes: X_c = X[y == c] mean_c = np.mean(X_c, axis=0) # 类内散度 Sw += (X_c - mean_c).T.dot(X_c - mean_c) # 类间散度 n_c = X_c.shape[0] mean_diff = (mean_c - mean_total).reshape(n_features, 1) Sb += n_c * (mean_diff).dot(mean_diff.T) # 添加正则化项防止奇异矩阵 Sw += reg_param * np.eye(n_features) # 计算Sw⁻¹Sb的特征值和特征向量 eigenvalues, eigenvectors = np.linalg.eig(np.linalg.inv(Sw).dot(Sb)) # 按特征值降序排序 idx = eigenvalues.argsort()[::-1] eigenvalues = eigenvalues[idx] eigenvectors = eigenvectors[:, idx] # 存储投影矩阵 self.components_ = eigenvectors[:, :self.n_components]

6. 在分类任务中的性能验证

为了量化评估LDA的效果，我们可以在降维后的数据上训练分类器，比较不同降维方法对分类性能的影响。

6.1 分类实验设置

from sklearn.model_selection import train_test_split from sklearn.svm import SVC from sklearn.metrics import accuracy_score # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split( X_std, y, test_size=0.3, random_state=42) # 定义降维方法 methods = { '原始数据(4D)': None, 'PCA(2D)': PCA(n_components=2), 'LDA(2D)': LDA(n_components=2) } # 评估每种方法 results = {} for name, reducer in methods.items(): if reducer is None: X_train_reduced = X_train X_test_reduced = X_test else: if name == 'LDA(2D)': reducer.fit(X_train, y_train) else: reducer.fit(X_train) X_train_reduced = reducer.transform(X_train) X_test_reduced = reducer.transform(X_test) # 训练SVM分类器 clf = SVC(kernel='linear') clf.fit(X_train_reduced, y_train) # 评估性能 y_pred = clf.predict(X_test_reduced) acc = accuracy_score(y_test, y_pred) results[name] = acc

6.2 性能比较结果

将不同降维方法下的分类准确率进行比较：

降维方法	测试准确率
原始数据(4D)	0.977
PCA(2D)	0.933
LDA(2D)	0.977

从结果可以看出，虽然降到了2维，LDA仍然保持了与原始4维数据相当的分类性能，而PCA则有一定程度的性能下降。这验证了LDA在保留分类信息方面的优势。

7. 高级话题与扩展

7.1 核LDA

对于非线性可分数据，可以引入核技巧，将LDA扩展为核LDA：

from sklearn.decomposition import KernelPCA from sklearn.discriminant_analysis import LinearDiscriminantAnalysis # 先使用核PCA进行非线性映射 kpca = KernelPCA(n_components=3, kernel='rbf') X_kpca = kpca.fit_transform(X_std) # 然后应用LDA lda = LinearDiscriminantAnalysis(n_components=2) X_klda = lda.fit_transform(X_kpca, y)

7.2 LDA用于多分类问题

虽然我们主要讨论了二分类问题，但LDA也可以自然地扩展到多分类场景。在多类LDA中：

类间散度矩阵Sb的计算需要考虑所有类别
最大降维维度是类别数-1
求解广义特征值问题得到多个判别方向

7.3 LDA与逻辑回归的关系

LDA与逻辑回归有着密切的联系，两者都是线性分类方法，但假设不同：

LDA假设各类数据服从高斯分布且共享协方差矩阵
逻辑回归不对数据分布做假设，直接建模条件概率

在实际应用中，当LDA的假设成立时，它通常比逻辑回归表现更好；当假设不成立时，逻辑回归可能更鲁棒。

8. 常见问题与解决方案

在实际应用LDA时，可能会遇到以下问题：

小样本问题：当特征维度高于样本数时，Sw不可逆
- 解决方案：添加正则化项（如前所示），或先使用PCA降维
非高斯分布数据：LDA假设数据服从高斯分布
- 解决方案：尝试数据转换（如对数变换），或使用其他方法如QDA
类别不平衡：LDA对类别不平衡敏感
- 解决方案：对少数类过采样或对多数类欠采样
非线性可分数据：LDA是线性方法
- 解决方案：使用核LDA或其他非线性方法

下面是一个处理小样本问题的示例：

# 高维小样本数据 X_high_dim = np.random.randn(50, 100) # 50样本，100特征 y_high_dim = np.random.randint(0, 2, 50) # 二分类标签 # 直接应用LDA会失败 try: lda = LDA(n_components=1) lda.fit(X_high_dim, y_high_dim) except np.linalg.LinAlgError as e: print(f"错误: {e}") # 先使用PCA降维 pca = PCA(n_components=20) X_pca = pca.fit_transform(X_high_dim) # 然后应用LDA lda = LDA(n_components=1) lda.fit(X_pca, y_high_dim) print("成功应用PCA+LDA")

9. 性能优化技巧

对于大规模数据集，LDA的计算可能会变得昂贵。以下是一些优化建议：

随机SVD：对于高维数据，使用随机SVD近似计算特征分解
增量计算：对于流式数据，实现增量式LDA
GPU加速：利用CUDA加速矩阵运算
稀疏矩阵：如果数据稀疏，使用稀疏矩阵运算

下面是一个使用随机SVD的示例：

from sklearn.utils.extmath import randomized_svd def lda_with_random_svd(X, y, n_components, n_oversamples=10): # 计算Sw和Sb # ... (与之前相同) # 使用随机SVD计算Sw⁻¹Sb的主要成分 M = np.linalg.pinv(Sw).dot(Sb) U, Sigma, VT = randomized_svd( M, n_components=n_components, n_oversamples=n_oversamples ) return U