您当前的位置: 首页 > 

宝哥大数据

暂无认证

  • 0浏览

    0关注

    1029博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

Gaussian Mixture Model(GMM)

宝哥大数据 发布时间:2020-04-03 11:03:19 ,浏览量:0

一、GMM的原理

  高斯混合模型(Gaussian Mixed Model,GMM)也是一种常见的聚类算法,与K-means类似,都使用了EM算法进行迭代计算。高斯混合模型假设每个簇的数据都是符合高斯分布的,当前数据呈现的分布就是各个簇的高斯分布叠加在一起的结果。理论上,高斯混合模型可以拟合出任意类型的分布。   高斯混合模型的核心思想:假设数据可以看作从多个高斯分布中生成出来的。在该假设下,每个单独的分模型都是标准高斯模型,其均值 μ i \mu_i μi​和方差 ∑ i \sum_i ∑i​,此外,每个分模型都还有一个参数,可以理解为权重或生成数据的概率。高斯混合模型公式如下: 在这里插入图片描述

  高斯混合模型是一个生成式模型。   求解高斯混合模型的参数可以用EM算法框架,先固定一个变量使整体函数变为凸优化函数,求导得到最值,然后利用最优参数更新被固定的变量,进入下一个循环。也就是说每次循环时,先固定当前的高斯分布不变,获得每个数据点由各个高斯分布生成的概率。然后固定该生成概率不变,根据数据点的生成概率,获得一组更佳的高斯分布。

1.1、高斯混合模型与K均值算法:

相同点:

  • (1) 都是聚类算法;
  • (2) 都需要指定K值;
  • (3) 都用EM算法来求解;
  • (4) 往往只能收敛于局部最优。

高斯混合模型的优点:

  • (1) 可以给出一个样本属于某类的概率是多少;
  • (2) 不仅用于聚类,还可以用于概率密度估计;
  • (3) 可以用于生成新的样本点。
二、 三、SparkML实现

Reference:

  • 百面机器学习|第五章非监督学习知识点
关注
打赏
1587549273
查看更多评论
立即登录/注册

微信扫码登录

0.0404s