news 2026/4/23 15:13:16

SOM聚类Matlab程序

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
SOM聚类Matlab程序

自组织特征映射(SOM)的数据聚类程序。 matlab程序。 数据格式为excel,聚类标签可显示在图上。

最近在折腾数据聚类的时候重新捡起了自组织特征映射(SOM)这个老伙计。作为神经网络家族里擅长无监督学习的成员,它在数据可视化方面确实有一套。今天咱们用MATLAB整一个能处理Excel数据的SOM聚类程序,顺便把标签直接怼到图上,让结果看起来更直观。

先准备数据环境。假设我们有个"sales_data.xlsx",里面是某商超12个月的各品类销售指标。读取数据时别直接用xlsread了,试试MATLAB 2019b之后更香的readtable:

raw_data = readtable('sales_data.xlsx'); data_matrix = table2array(raw_data(:,2:end)); % 假设首列是月份名称 feature_names = raw_data.Properties.VariableNames(2:end);

数据归一化这个步骤千万别省,特别是当特征量纲差异大的时候。个人习惯用mapminmax做区间缩放,比z-score更抗异常值:

[normalized_data, ps] = mapminmax(data_matrix', 0, 1); % 转置适应函数格式 normalized_data = normalized_data'; % 再转回来保持样本行方向

接下来构建SOM网络。这里有个小技巧:先用默认参数快速试跑,再根据收敛情况调整。初始网络结构设置为5x5的六边形网格,这个尺寸适合大多数中小型数据集:

net = selforgmap([5 5], 'grid', 'hextop', 'linkdist'); net.trainParam.epochs = 100; % 先跑100轮看效果 [net, tr] = train(net, normalized_data');

训练完成后,通过权值矩阵观察聚类情况。每个神经元的权向量代表该簇的中心特征。用plotsomnd(net)可以看拓扑结构,但咱们更关心实际数据点的归属:

% 获取每个样本所属的神经元编号 outputs = net(normalized_data'); cluster_indices = vec2ind(outputs); % 关联原始数据标签 month_labels = table2cell(raw_data(:,1));

这时候直接上plotsomhits虽然能看分布,但标签显示得不够直观。自己动手画个带文字标注的版本:

figure; plotsomhits(net, normalized_data'); hold on % 获取神经元位置坐标 pos = net.layers{1}.positions; for i = 1:length(month_labels) text(pos(cluster_indices(i),1)+0.1, pos(cluster_indices(i),2)+0.1,... month_labels{i}, 'FontSize',8, 'Color','k'); end hold off

运行后可能会发现某些神经元节点挤满了标签,这时候可以调两个地方:一是增大网格尺寸,二是改用kmeans对权向量做二次聚类。比如用权向量作为初始质心:

w = net.IW{1}; [~, super_clusters] = kmeans(w, 3, 'Start', w(1:3,:)); % 假设想合并为3个大类

最后导出结果到Excel时,记得把原始数据和聚类标签合并保存。这个技巧在处理业务数据时特别实用:

result_table = [raw_data, array2table(cluster_indices,... 'VariableNames',{'SOM_Cluster'})]; writetable(result_table, 'clustered_result.xlsx');

几点实战经验:

  1. 当数据量超过1万条时,建议启用GPU加速(train(net,X,[],'useParallel','yes'))
  2. 六边形网格比矩形网格的边界更清晰
  3. 用plotsomplanes观察各特征在网格上的分布,能发现哪些指标对聚类贡献大

这套方案在分析客户分群、库存分类时特别管用。曾经用这个方法处理过2000+SKU的库存数据,配合颜色深浅表示库存周转率,一眼就能看出哪些品类该清仓了。下次遇到需要解释"为什么这些数据被分到一组"的时候,试试把特征平面图贴给业务部门看,比单纯给聚类编号直观多了。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 10:46:35

COMSOL模拟煤层封存二氧化碳:水平井与垂直井的双重视角分析,深入探讨裂隙压力、基质压力及煤...

COMSOL模拟煤层封存二氧化碳。 该案列分别从水平井和垂直井两个角度分析煤层封存二氧化碳,分析裂隙和基质压力以及煤层渗透率,附有详细的SP讲解。地下六百米深处的煤层正默默上演着神奇的气体收纳术。以山西某煤矿为例,我们尝试用COMSOL还原二…

作者头像 李华
网站建设 2026/4/23 12:14:53

Langchain-Chatchat定时同步文件系统变更

Langchain-Chatchat定时同步文件系统变更 在企业知识管理的实践中,一个常被忽视但极其关键的问题是:文档更新了,可知识库还在“说旧话”。 设想这样一个场景:法务团队刚刚修订了一份合同模板,上传到共享目录&#xff1…

作者头像 李华
网站建设 2026/4/23 12:11:25

高效测试:从理论到实践的12个关键技巧

一、测试思维重塑 场景化测试设计 通过用户旅程地图还原真实使用场景,建立“用户-功能-数据”三维测试模型。例如电商下单流程需覆盖:正常下单、库存不足、重复提交、支付超时等15个核心场景。 缺陷预防优先于缺陷发现 在需求评审阶段介入,…

作者头像 李华
网站建设 2026/4/23 12:15:05

MATLAB环境下基于时序与马尔可夫链蒙特卡罗方法的合成数据生成技术

MATLAB环境下基于时序蒙特卡罗方法的合成数据生成 基于马尔可夫链蒙特卡罗方法的合成数据生成最近在帮实验室做时间序列分析的时候,发现用蒙特卡罗方法生成合成数据真是个好用的工具。特别是基于马尔可夫链的这种,特别适合模拟存在状态转移的场景。咱们直…

作者头像 李华
网站建设 2026/4/23 13:26:07

先扔个完整代码镇楼(波士顿房价预测实战)

CatBoost-shap集成模型中的一种,本项目用在了回归问题上,并对模型和变量采用shap进行解释分析 Python代码,自带数据集,可以直接运行,代码实价,联系 所有图所见即所得,只会更多from catboost imp…

作者头像 李华