首先,我们的距离函数必须足够好,能保证同一类相对距离较近,不同类相对距离较远。我们希望最终的分类结果是:相近的点都被聚类到了一类中,即同一类中各个点到中心距离的平均距离 d 较近,而不同类中心之间的平均距离 D 较远。
EM算法
在一般性的问题中如果有很多观测值,可以让计算机不断迭代来学习一个模型。首先,根据现有的模型,计算出观测数据输入到模型中的结果,这个过程为期望值计算过程(Expectation,E过程);接下来,重新计算模型参数,以最大化期望值(文本分类中是最大化 D 和 -d ),该过程为最大化过程(Maximization,M过程)。统称为EM算法。