1.欧式距离 D = ∑ k = 1 n ( x k − y k ) D = \sqrt{\sum_{k=1}^n(x_{k} - y_{k})} D=k=1∑n(xk−yk)
2.曼哈顿距离 D = ∑ k = 1 n ∣ x k − y k ∣ D = \sum_{k=1}^n|x_{k}-y_{k}| D=k=1∑n∣xk−yk∣
3.切比雪夫距离 D = m a x k ( ∣ x k − y k ∣ ) D = max_{k}(|x_{k}-y_{k}|) D=maxk(∣xk−yk∣)
4.闵可夫斯基距离 D = ∑ k = 1 n ∣ x k − y k ∣ p p D = \sqrt[p]{\sum_{k=1}^n|x_{k}-y_{k}|^p} D=pk=1∑n∣xk−yk∣p 闵氏距离不是一种距离,而是一组距离的定义,是对多个距离度量公式的概括性的表述。
其中p是一个变参数
-
当p=1时,就是曼哈顿距离
-
当p=2时,就是欧氏距离
-
当p→∞时,就是切比雪夫距离
5.余弦相似度 余弦相似度 = s i m i l a r i t y = C o s ( θ ) = A ⋅ B ∣ ∣ A ∣ ∣ ∣ B ∣ ∣ = ∑ i = 1 n A i × B i ∑ i = 1 n ( A i ) 2 ∑ i = 1 n ( B i ) 2 余弦相似度 = similarity = Cos(\theta) = \frac{A\cdot B}{||A|||B||} =\frac{\sum_{i=1}^nA_i×B_i}{\sqrt{\sum_{i=1}^n(A_i)^2}\sqrt{\sum_{i=1}^n(B_i)^2}} 余弦相似度=similarity=Cos(θ)=∣∣A∣∣∣B∣∣A⋅B=∑i=1n(Ai)2 ∑i=1n(Bi)2 ∑i=1nAi×Bi
余弦距离 = 1 − s i m i l a r i t y 余弦距离 =1-similarity 余弦距离=1−similarity
6.皮尔逊相似度
皮尔逊相关系数就是把两组数据标准化处理之后的向量夹角的余弦 r x y = ∑ i = 1 n ( x i − x ‾ ) ( y i − y ‾ ) ∑ i = 1 n ( x i − x ‾ ) 2 ∑ i = 1 n ( y i − y ‾ ) 2 r_{xy} = \frac{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2}\sqrt{\sum_{i=1}^n(y_i-\overline{y})^2}} rxy=∑i=1n(xi−x)2 ∑i=1n(yi−y)2 ∑i=1n(xi−x)(yi−y)
7.Jaccard相似度 J s i m i l a r i t y = 1 − J ( A , B ) = 1 − ∣ A ∩ B ∣ ∣ A ∣ + ∣ B ∣ − ∣ A ∩ B ∣ J_similarity = 1-J(A,B) = 1-\frac{|A \cap B|}{|A|+|B|-|A\cap B|} Jsimilarity=1−J(A,B)=1−∣A∣+∣B∣−∣A∩B∣∣A∩B∣
8.汉明距离
汉明距离是一个概念,它表示两个(相同长度)字对应位不同的数量
比如:1011101 与 1001001 之间的汉明距离是 2
9.马氏距离 D ( X i , X j ) = ( X i − X j ) T S − 1 ( X i − X j ) D(X_i,X_j) = \sqrt{(X_i-X_j)^TS^{-1}(X_i-X_j)} D(Xi,Xj)=(Xi−Xj)TS−1(Xi−Xj) 其中 S − 1 S^{-1} S−1是多维随机变量的协方差矩阵
10.修正的余弦相似度
11.加权的汉明距离
12.相关距离