用mRMR算法给特征排个座次，手把手教你数据瘦身-深圳市維司達科技有限公司

利用最大相关最小冗余mRMR算法对特征变量做特征重要性排序，实现特征选择。通过重要性排序图，选择重要的特征变量，以期实现数据降维的目的。程序直接替换数据就可以用，程序内有注释，方便学习和使用。程序语言为matlab。

做机器学习项目最怕遇到高维数据，几百个特征一股脑塞进模型里，训练慢不说效果还容易翻车。这时候就得靠特征选择来救场了，今天咱们玩的这个mRMR（最大相关最小冗余）算法，能帮咱挑出那些既重要又不重复的特征。

先上核心代码（替换你的数据直接就能跑）：

function selected_features = mRMR_feature_selection(X, y, num_features) % 输入参数： % X - 特征矩阵（n_samples×n_features） % y - 目标变量（n_samples×1） % num_features - 要选择的特征数量 [n_samples, n_features] = size(X); feature_set = 1:n_features; selected_features = []; % 计算每个特征与目标的互信息 mi_target = zeros(1, n_features); for i = 1:n_features mi_target(i) = mut_info(X(:,i), y); end % 首轮选择互信息最大的特征 [~, first_feature] = max(mi_target); selected_features = [selected_features first_feature]; feature_set(feature_set == first_feature) = []; % 迭代选择后续特征 for k = 2:num_features redundancy = zeros(1, length(feature_set)); relevance = mi_target(feature_set); % 计算候选特征与已选特征的冗余 for i = 1:length(feature_set) candidate = feature_set(i); sum_mi = 0; for j = selected_features sum_mi = sum_mi + mut_info(X(:,candidate), X(:,j)); end redundancy(i) = sum_mi / length(selected_features); } % 计算mRMR得分 mrmr_score = relevance - redundancy; % 选择得分最高的特征 [~, idx] = max(mrmr_score); selected_features = [selected_features feature_set(idx)]; feature_set(idx) = []; end end function mi = mut_info(x, y) % 计算两个变量的互信息 [joint_dist, ~, ~] = histcounts2(x, y, 10); joint_dist = joint_dist / sum(joint_dist(:)); marginal_x = sum(joint_dist, 2); marginal_y = sum(joint_dist, 1); mi = 0; for i = 1:size(joint_dist,1) for j = 1:size(joint_dist,2) if joint_dist(i,j) > 0 mi = mi + joint_dist(i,j) * log2(joint_dist(i,j)/(marginal_x(i)*marginal_y(j))); end end end end

代码重点解析：

互信息计算部分用了直方图分箱（histcounts2），这里把连续变量离散化成10个区间。实际操作中如果特征是分类变量，可以直接用原始类别计算。

冗余度计算时取的是与已选特征互信息的平均值，这个设计让算法更倾向于选择与已选特征差异大的候选特征。

选择过程中不断更新候选集，避免重复选择，这个动态更新机制是mRMR的核心。

可视化重要性排序：

% 假设运行完特征选择得到selected_features figure; barh(sort(mi_target(selected_features), 'descend')); xlabel('mRMR重要性得分'); set(gca,'yticklabel',feature_names(selected_features)); title('特征重要性排序');

这个横向条形图越靠右的特征越重要，建议在拐点位置（类似肘部法则）截断选择特征。比如前5个特征贡献了80%的重要性得分，后面的就可以砍掉。

避坑指南：

数据需要先做归一化！特别是连续特征
目标变量y如果是回归任务，需要修改互信息计算方法
特征数量较多时建议分批计算，否则内存容易爆炸
离散化分箱数不要超过样本量的平方根

最后说个玄学经验：用mRMR筛选后的特征再扔进随机森林跑一遍重要性，两者结果取交集，效果往往比单用某一种方法更稳。毕竟特征选择这事儿，多算法交叉验证才靠谱嘛。

AI应用架构师重塑智能家居生态系统AI应用格局

AI应用架构师：如何用技术重塑智能家居生态的“智能边界”？ 一、引言：当“智能”家居变成“人工”家居，我们需要什么？ 清晨7点，你被手机闹钟叫醒，伸手摸向床头的智能灯——它没反应，因…

李华

企业AI落地实战指南：5步+15天方法论，让大模型真正创造价值

文章提出企业AI落地的"5步15天"方法论，强调AI落地是"业务技术组织"的协同革命，而非单纯的技术问题。五步包括：定目标建团队、识流程排优先级、画流程收反馈、LLMs头脑风暴和数字工具链。核心观点是AI落地的本质是解决实际…

李华

一文读懂什么是商机管理？从0到1掌握CRM商机管理

在存量竞争日益激烈的数字化时代，企业的销售逻辑正在经历深刻变革，粗放式获客的红利逐渐消退，精细化运营成为增长破局的核心路径。对于以销售为核心驱动力的企业来说，商机是连接市场需求与营收增长的关键载体，而商机管…

李华

基于SpringBoot的在线食品安全信息平台系统毕设源码+文档+讲解视频

前言随着食品安全问题日益受到社会关注，公众对食品溯源、安全标准查询、监管信息公示等需求不断提升，传统信息披露模式存在分散、滞后等弊端。本课题旨在设计并实现一款基于SpringBoot框架的在线食品安全信息平台系统，构建一体化食品安全信息…

李华

PyTorch模型保存与加载：在Miniconda中进行持久化操作

PyTorch模型保存与加载：在Miniconda中进行持久化操作在深度学习项目中，一个常见的“噩梦”场景是：你花了几天时间训练出一个高精度模型，结果重启机器后发现代码还能跑，但模型权重不见了——因为忘了保存。更糟的是&am…

李华

使用requirements.txt配合Miniconda管理Python依赖

使用requirements.txt配合Miniconda管理Python依赖在人工智能和数据科学项目中，你是否曾遇到这样的场景：本地训练好的模型在同事的机器上跑不起来？或者几个月后自己重新运行实验时，因为库版本不一致导致结果无法复现？…

李华