加入收藏 | 设为首页 | 会员中心 | 我要投稿 广元站长网 (https://www.0839zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 评论 > 正文

监督学习最强攻略

发布时间:2021-03-14 13:54:59 所属栏目:评论 来源:互联网
导读:统的欧式距离度量方式使得K-Mean算法本质上是假设各个簇的数据具有一样的先验概率,并呈现球形或者高维球形分布,但这种分布在现实中不太常见,这个时候我们引入一个核K-Mean算法,主要面对非凸的数据分布。 这类核聚类方法主要是通过一个非线性映射,将输入



统的欧式距离度量方式使得K-Mean算法本质上是假设各个簇的数据具有一样的先验概率,并呈现球形或者高维球形分布,但这种分布在现实中不太常见,这个时候我们引入一个核K-Mean算法,主要面对非凸的数据分布。

这类核聚类方法主要是通过一个非线性映射,将输入控件中的数据点映射到高位的特征空间中,并在新的特征空间中进行聚类,非线性映射增加了数据点线性可分的概率,从而达到更高精度的聚类结果。

再说说两种算法

1)K-Mean++算法

这个从名字上看,就是K-Mean的改良版,主要是在初始值的选取上作了改进。原先的K-Mean是随机选择初始值,而K-Mean++算法则是:

  • 第1个聚类中心也是随机;
  • 接下来的聚类中心,也就是第2个,按照距离当前聚类中心越远越好;
  • 按照上述思想,选择了k个初始的聚类中心;
  • 初始值选取完毕后,后续的流程和K-Mean是一样的。

2)ISODATA算法

当K值的大小不确定的时候,可以使用ISODATA算法,全称叫迭代自组织数据分析法。ISODATA算法在K-Mean算法的基础上增加了两个操作:

  • 分裂操作,对应着增加聚类中心数
  • 合并操作,对应着减少聚类中心数

ISODATA的应用也是比较复杂的,需要填比较多的参数:

  • 预期的聚类中心数据K0:在ISODATA运行过程中聚类中心数可以自动变化,这里的K0只是一个参考值;
  • 每个类所要求的的最少样本数Nmin:如果分裂后会导致某个子类别所包含的样本数量少于该阈值,会拒绝本次分裂操作;
  • 最大方差Sigma:用于控制某个类别中样本的分散程度,当样本的分散程度超过某个阈值时,且分裂后满足第一条要求,则进行分裂操作;
  • 两个聚类中心之间所允许的最小距离Dmin:如果两个簇靠得很近,就会被进行合并操作。

(编辑:广元站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读