用 EM 算法推导解释 Kmeans?
k-means第一步是给每个数据点分类,分类方法采用最近邻原则;第二步根据分类的结果,将中心点重新计算,计算方式为类中所有点的中心点。
第一步计算每个样本点是否属于每个簇心是计算期望的一步,这个可以看作是每个样本点属于各个类的概率,类似于One-hot编码的过程,再计算误差函数J,就是计算所有样本点误差期望之和。这其实就是k-means算法中的EM算法第二步就是对求得的期望求最值。那么在k-means算法中,第二步对J求导等于0,其实就是在求最值,这也正好对应EM的第二步。