• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

高斯混合模型GMM,GOM

武飞扬头像
章魚.
帮助1

1.k-means聚类的缺点

        k-means聚类使用欧式距离为距离函数时,其二维本质是,以每个簇质心为圆心圈出来的一个一个圆圈。用这个圆将原始数据进行截断分类,但是实际数据分布不一定全是标准的圆形,还可能是椭圆等。这使得它对许多数据的分类拟合效果不尽如人意:

        1)类的形状不够灵活,拟合结果与实际相差较大,精度有限。

        2)样本对于是否属于每一个簇是确定的,即只有是与否,应用中缺少鲁棒性。

2.高斯混合模型

        基本思想:用多个高斯分布函数(正态分布)去近似任意形状的概率分布。将待聚类的数据点看成是分布的采样点,通过采样点利用类似极大似然估计的方法估计高斯分布的参数,求出参数(用EM算法求解)即得出了数据点对分类的隶属函数。

学新通

         GMM 的概率密度函数:

学新通

        其中;

        1)K 为模型的个数,即聚类的个数。

        2) 学新通 为数据样本属于第 k 个高斯分布的概率(先验分布,试验之前由相关知识得到的分布),其满足:

学新通

        3)学新通为第 k 个高斯的概率密度,其中:

        学新通

                学新通 为均值,学新通 为方差。

        算法步骤:

        1)设置 k 的个数,即初始化高斯混合模型的成分个数。初始化每个簇的高斯分布参数。

        2)计算每个点属于每个高斯模型的概率。

        3)根据每个点和其属于每个高斯模型的概率,重新计算每个高斯模型的参数 学新通

        4)重复迭代计算步骤2)3)直到收敛。

        补充:

        1)前提假设数据样本服从高斯分布

        2)k-means是GMM的特例,即当GMM在所有维度的方差都一样的时候会呈现出圆形。

        3)GMM每次迭代的计算量要比k-means大很多,故可以先用k-means(重复多次取最优)得到初始聚类中心点,作为GMM的初始值进行迭代。

        

    

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhghfkgk
系列文章
更多 icon
同类精品
更多 icon
继续加载