高斯混合模型(Gaussian Mixed Model,GMM)也是一种常见的聚类算法,与K-means类似,都使用了EM算法进行迭代计算。高斯混合模型假设每个簇的数据都是符合高斯分布的,当前数据呈现的分布就是各个簇的高斯分布叠加在一起的结果。理论上,高斯混合模型可以拟合出任意类型的分布。 高斯混合模型的核心思想:假设数据可以看作从多个高斯分布中生成出来的。在该假设下,每个单独的分模型都是标准高斯模型,其均值
μ
i
\mu_i
μi和方差
∑
i
\sum_i
∑i,此外,每个分模型都还有一个参数,可以理解为权重或生成数据的概率。高斯混合模型公式如下:
高斯混合模型是一个生成式模型。 求解高斯混合模型的参数可以用EM算法框架,先固定一个变量使整体函数变为凸优化函数,求导得到最值,然后利用最优参数更新被固定的变量,进入下一个循环。也就是说每次循环时,先固定当前的高斯分布不变,获得每个数据点由各个高斯分布生成的概率。然后固定该生成概率不变,根据数据点的生成概率,获得一组更佳的高斯分布。
1.1、高斯混合模型与K均值算法:相同点:
- (1) 都是聚类算法;
- (2) 都需要指定K值;
- (3) 都用EM算法来求解;
- (4) 往往只能收敛于局部最优。
高斯混合模型的优点:
- (1) 可以给出一个样本属于某类的概率是多少;
- (2) 不仅用于聚类,还可以用于概率密度估计;
- (3) 可以用于生成新的样本点。
Reference:
- 百面机器学习|第五章非监督学习知识点