news 2026/4/23 20:43:13

机器学习(聚类算法)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
机器学习(聚类算法)

一、K-means

1.基本概念

聚成多少个簇:需要指定K的值
距离的度量:一般采用欧式距离

距离:

曼哈顿距离:

欧式距离:

2.聚类效果的评价方式:轮廓系数

a(i):对于第i个元素xi,计算xi与其同一个簇内所有其他元素距离的平均值,表示了簇内的凝聚程度。
b(i):选取xi外的一个簇,计算xi与该簇内所有点距离的平均距离,遍历其他所有簇,取所有平均值中最小的一个,表示簇间的分离度。
计算所有x的轮廓系数,求出平均值即为当前聚类的整体轮廓系数。

轮廓系数的评价:

1.轮廓系数范围在[-1,1]之间。该值越大,越合理。
2.si接近1,则说明样本i聚类合理;
3.si接近-1,则说明样本i更应该分类到另外的簇;
4.若si近似为0,则说明样本i在两个簇的边界上。

3.K-means的API参数

classsklearn.cluster.KMeans(n_clusters=8,init=’kmeans++’,n_init=10,max_iter=300,tol=0.0001,precompute_distances=’auto’,verbose=0,random_state=None,copy_x=True,n_jobs=None,algorithm=’auto’)[source]

n_clusters:类中心的个数,就是要聚成几类。【默认8个】

init初始化的方法,默认为'k-means++'

(1)'k-means++':用一种特殊的方法选定初始质心从而能加速迭代过程的收敛.

(2)‘random’:随机从训练数据中选取初始质心。

(3)如果传递的是一个ndarray,则应该形如 (n_clusters, n_features) 并给出初始质心。

4.优缺点

优点:简单,快速,适合常规的数据集。

缺点:1.K值难以确定。2.很难发现任意形状的簇。

二、DBSCAN

1.概念

基于密度的带噪声的空间聚类应用算法,它是将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并在噪声的空间数据集中发现任意形状的聚类。

2.实现过程

1.输入数据集
2.指定半径
3.指定密度阈值

3.DBSCAN的API参数

classsklearn.cluster.DBSCAN(eps=0.5,min_samples=5,metric=’euclidean’,metric_params=None,algorithm=’auto’,leaf_size=30,p=None,n_jobs=None)

eps: DBSCAN算法参数,即我们的ϵϵ-邻域的距离阈值,和样本距离超过ϵϵ的样本点不在ϵϵ-邻域内。默认值是0.5.一般需要通过在多组值里面选择一个合适的阈值。eps过大,则更多的点会落在核心对象的ϵϵ-邻域,此时我们的类别数可能会减少, 本来不应该是一类的样本也会被划为一类。反之则类别数可能会增大,本来是一类的样本却被划分开。

min_samples: DBSCAN算法参数,即样本点要成为核心对象所需要的ϵϵ-邻域的样本数阈值。默认值是5. 一般需要通过在多组值里面选择一个合适的阈值。通常和eps一起调参。在eps一定的情况下,min_samples过大,则核心对象会过少,此时簇内部分本来是一类的样本可能会被标为噪音点,类别数也会变多。反之min_samples过小的话,则会产生大量的核心对象,可能会导致类别数过少。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 11:25:55

Typora官网主题美化教程打造个性化写作空间

Typora 主题美化实战:打造专属的沉浸式写作环境 在数字创作愈发普及的今天,写作早已不只是内容的堆砌,而是一种思维与审美的双重表达。一款好的编辑器,不仅要“好用”,更要“顺眼”。Typora 作为 Markdown 编辑器中的…

作者头像 李华
网站建设 2026/4/23 14:50:08

通信信号处理流水线中的BRAM使用技巧:实战分享

通信信号处理流水线中的BRAM实战技巧:从原理到性能跃升在高速通信系统设计中,我们常常面临一个看似简单却极具挑战的问题:如何让数据“刚刚好”地到达下一个处理模块?想象这样一个场景——你正在设计一款5G毫米波接收机&#xff0…

作者头像 李华
网站建设 2026/4/23 11:29:35

小鹏汽车 端到端 自动驾驶 最新进展

小鹏汽车端到端自动驾驶最新进展(2026 年 1 月) 一、核心技术突破:第二代 VLA 系统(视觉 - 语言 - 动作融合) 第二代 VLA是小鹏端到端自动驾驶的最新里程碑,于 2025 年 11 月 6 日科技日正式发布&#xff0…

作者头像 李华
网站建设 2026/4/23 14:44:06

Typora官网降价促销?其实开源社区已有平替方案

Typora官网降价促销?其实开源社区已有平替方案 在内容创作工具的赛道上,一场静悄悄的变革正在发生。当 Typora 官网打出“限时优惠”标签、悄然转向订阅制时,不少长期用户开始重新审视:我们真的需要为一个 Markdown 编辑器持续付费…

作者头像 李华
网站建设 2026/4/23 10:44:29

百度搜索不到的干货:本地运行IndexTTS2避坑指南

本地运行 IndexTTS2:从部署到避坑的完整实践指南 在AI语音合成技术逐渐渗透进内容创作、智能硬件和企业服务的今天,越来越多开发者开始关注一个问题:如何在不牺牲隐私的前提下,获得媲美专业播音员水准的语音输出?云端…

作者头像 李华