高斯混合模型GMM,GOM
1.k-means聚类的缺点
k-means聚类使用欧式距离为距离函数时,其二维本质是,以每个簇质心为圆心圈出来的一个一个圆圈。用这个圆将原始数据进行截断分类,但是实际数据分布不一定全是标准的圆形,还可能是椭圆等。这使得它对许多数据的分类拟合效果不尽如人意:
1)类的形状不够灵活,拟合结果与实际相差较大,精度有限。
2)样本对于是否属于每一个簇是确定的,即只有是与否,应用中缺少鲁棒性。
2.高斯混合模型
基本思想:用多个高斯分布函数(正态分布)去近似任意形状的概率分布。将待聚类的数据点看成是分布的采样点,通过采样点利用类似极大似然估计的方法估计高斯分布的参数,求出参数(用EM算法求解)即得出了数据点对分类的隶属函数。
GMM 的概率密度函数:
其中;
1)K 为模型的个数,即聚类的个数。
2) 为数据样本属于第 k 个高斯分布的概率(先验分布,试验之前由相关知识得到的分布),其满足:
3)为第 k 个高斯的概率密度,其中:
为均值, 为方差。
算法步骤:
1)设置 k 的个数,即初始化高斯混合模型的成分个数。初始化每个簇的高斯分布参数。
2)计算每个点属于每个高斯模型的概率。
3)根据每个点和其属于每个高斯模型的概率,重新计算每个高斯模型的参数 。
4)重复迭代计算步骤2)3)直到收敛。
补充:
1)前提假设数据样本服从高斯分布
2)k-means是GMM的特例,即当GMM在所有维度的方差都一样的时候会呈现出圆形。
3)GMM每次迭代的计算量要比k-means大很多,故可以先用k-means(重复多次取最优)得到初始聚类中心点,作为GMM的初始值进行迭代。
这篇好文章是转载于:学新通技术网
- 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
- 本站站名: 学新通技术网
- 本文地址: /boutique/detail/tanhghfkgk
-
photoshop保存的图片太大微信发不了怎么办
PHP中文网 06-15 -
《学习通》视频自动暂停处理方法
HelloWorld317 07-05 -
word里面弄一个表格后上面的标题会跑到下面怎么办
PHP中文网 06-20 -
Android 11 保存文件到外部存储,并分享文件
Luke 10-12 -
photoshop扩展功能面板显示灰色怎么办
PHP中文网 06-14 -
微信公众号没有声音提示怎么办
PHP中文网 03-31 -
excel下划线不显示怎么办
PHP中文网 06-23 -
excel打印预览压线压字怎么办
PHP中文网 06-22 -
TikTok加速器哪个好免费的TK加速器推荐
TK小达人 10-01 -
怎样阻止微信小程序自动打开
PHP中文网 06-13