您当前的位置: 首页 >  数据挖掘

韩曙亮

暂无认证

  • 2浏览

    0关注

    1068博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

【数据挖掘】K-Means 一维数据聚类分析示例

韩曙亮 发布时间:2020-05-03 15:23:59 ,浏览量:2

文章目录
        • K-Means 一维数据计算示例 数据样本 及 初始值
        • K-Means 一维数据 距离计算方式
        • K-Means 算法 步骤
        • 第一次迭代 : 步骤 ( 1 ) 计算距离
        • 第一次迭代 : 步骤 ( 2 ) 聚类分组
        • 第一次迭代 : 步骤 ( 3 ) 计算中心值
        • 第二次迭代 : 步骤 ( 1 ) 计算距离
        • 第二次迭代 : 步骤 ( 2 ) 聚类分组
        • 第二次迭代 : 步骤 ( 3 ) 计算中心值
        • 第三次迭代 : 步骤 ( 1 ) 计算距离
        • 第三次迭代 : 步骤 ( 2 ) 聚类分组
        • 第三次迭代 : 步骤 ( 3 ) 计算中心值
        • 第四次迭代 : 步骤 ( 1 ) 计算距离
        • 第四次迭代 : 步骤 ( 2 ) 聚类分组

K-Means 一维数据计算示例 数据样本 及 初始值

1 . 数据集样本 : 14 14 14 个人 , 根据其年龄 , 将数据集分成 3 3 3 组 ;

2 . 选定初始的中心值 : 1 1 1 , 20 20 20 , 40 40 40 ;

K-Means 一维数据 距离计算方式

1 . 距离公式选择 : 一维数据 直接使用 曼哈顿距离 计算即可 , 二维数据 需要使用 欧几里得距离 计算 ;

2 . 曼哈顿距离 : 这里直接使用曼哈顿距离 , 即样本值 , 直接相减得到的值取绝对值 , 就是曼哈顿距离 ;

K-Means 算法 步骤

K-Means 算法 步骤 : 给定数据集 X X X , 该数据集有 n n n 个样本 , 将其分成 K K K 个聚类 ;

① 中心点初始化 : 为 K K K 个聚类分组选择初始的中心点 , 这些中心点称为 Means ; 可以依据经验 , 也可以随意选择 ;

② 计算距离 : 计算 n n n 个对象与 K K K 个中心点 的距离 ; ( 共计算 n × K n \times K n×K 次 )

③ 聚类分组 : 每个对象与 K K K 个中心点的值已计算出 , 将每个对象分配给距离其最近的中心点对应的聚类 ;

④ 计算中心点 : 根据聚类分组中的样本 , 计算每个聚类的中心点 ;

⑤ 迭代直至收敛 : 迭代执行 ② ③ ④ 步骤 , 直到 聚类算法收敛 , 即 中心点 和 分组 经过多少次迭代都不再改变 , 也就是本次计算的中心点与上一次的中心点一样 ;

第一次迭代 : 步骤 ( 1 ) 计算距离

计算 14 14 14 个样本 与 3 3 3 个中心点的距离 :

① 表格含义 : 如下 P 1 P_1 P1​ 与 C 1 C_1 C1​ 对应的表格位置值是 P 1 P_1 P1​ 样本 与 C 1 C_1 C1​ 中心点的曼哈顿距离 , 即 两个值相减取绝对值 ;

② 计算方式 : 计算 P i P_i Pi​ 与 C j C_j Cj​ 之间的距离 , 直接将两个数值相减取平均值即可 ; i i i 取值范围 , { 1 , 2 , ⋯   , 14 } \{1 , 2 , \cdots , 14\} {1,2,⋯,14} , j j j 的取值范围 { 1 , 2 , 3 } \{1 , 2, 3\} {1,2,3} ;

③ 计算示例 : 如 P 3 P_3 P3​ 样本 与 C 2 C_2 C2​ 中心点的距离计算 , P 3 P_3 P3​ 样本的年龄属性值是 5 5 5 , C 2 C_2 C2​ 中心点值为 20 20 20 ; d ( P 3 , C 2 ) d(P_3, C_2) d(P3​,C2​) 表示两个点之间的距离 ;

d ( P 3 , C 2 ) = ∣ 5 − 20 ∣ = 15 d(P_3, C_2) = |5 - 20| = 15 d(P3​,C2​)=∣5−20∣=15

下表中的 P 3 P_3 P3​ 行 C 2 C_2 C2​ 列对应的值是 15 15 15 , 即上面计算出来的距离值 ;

年龄聚类 C 1 C_1 C1​ C 2 C_2 C2​ C 3 C_3 C3​中心值 1 1 1 20 20 20 40 40 40 P 1 P_{1} P1​ 1 1 1 0 0 0 19 19 19 39 39 39 P 2 P_2 P2​ 3 3 3 2 2 2 17 17 17 37 37 37 P 3 P_3 P3​ 5 5 5 4 4 4 15 15 15 35 35 35 P 4 P_4 P4​ 8 8 8 7 7 7 12 12 12 32 32 32 P 5 P_5 P5​ 9 9 9 8 8 8 11 11 11 31 31 31 P 6 P_6 P6​ 11 11 11 10 10 10 9 9 9 29 29 29 P 7 P_7 P7​ 12 12 12 11 11 11 8 8 8 28 28 28 P 8 P_8 P8​ 13 13 13 12 12 12 7 7 7 27 27 27 P 9 P_9 P9​ 37 37 37 36 36 36 17 17 17 3 3 3 P 10 P_{10} P10​ 43 43 43 42 42 42 23 23 23 3 3 3 P 11 P_{11} P11​ 45 45 45 44 44 44 25 25 25 5 5 5 P 12 P_{12} P12​ 49 49 49 48 48 48 29 29 29 9 9 9 P 13 P_{13} P13​ 51 51 51 50 50 50 31 31 31 11 11 11 P 14 P_{14} P14​ 65 65 65 64 64 64 45 45 45 25 25 25 第一次迭代 : 步骤 ( 2 ) 聚类分组

1 . 为 { P 1 , P 2 , ⋯   , P 14 } \{P_1 , P_2, \cdots , P_{14}\} {P1​,P2​,⋯,P14​} 这 14 14 14 个样本分组 :

P 1 P_{1} P1​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 1 C_1 C1​ 距离最近 , 距离是 0 0 0 , P 1 P_1 P1​ 样本 分组到 K 1 K_1 K1​ 组 ; P 2 P_{2} P2​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 1 C_1 C1​ 距离最近 , 距离是 2 2 2 , P 2 P_2 P2​ 样本 分组到 K 1 K_1 K1​ 组 ; P 3 P_{3} P3​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 1 C_1 C1​ 距离最近 , 距离是 4 4 4 , P 3 P_3 P3​ 样本 分组到 K 1 K_1 K1​ 组 ; P 4 P_{4} P4​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 1 C_1 C1​ 距离最近 , 距离是 7 7 7 , P 4 P_4 P4​ 样本 分组到 K 1 K_1 K1​ 组 ; P 5 P_{5} P5​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 1 C_1 C1​ 距离最近 , 距离是 8 8 8 , P 5 P_5 P5​ 样本 分组到 K 1 K_1 K1​ 组 ;

P 6 P_{6} P6​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 2 C_2 C2​ 距离最近 , 距离是 9 9 9 , P 6 P_6 P6​ 样本 分组到 K 2 K_2 K2​ 组 ; P 7 P_{7} P7​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 2 C_2 C2​ 距离最近 , 距离是 8 8 8 , P 7 P_7 P7​ 样本 分组到 K 2 K_2 K2​ 组 ; P 8 P_{8} P8​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 2 C_2 C2​ 距离最近 , 距离是 7 7 7 , P 8 P_8 P8​ 样本 分组到 K 2 K_2 K2​ 组 ;

P 9 P_{9} P9​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 3 C_3 C3​ 距离最近 , 距离是 3 3 3 , P 9 P_9 P9​ 样本 分组到 K 3 K_3 K3​ 组 ; P 10 P_{10} P10​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 3 C_3 C3​ 距离最近 , 距离是 3 3 3 , P 10 P_{10} P10​ 样本 分组到 K 3 K_3 K3​ 组 ; P 11 P_{11} P11​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 3 C_3 C3​ 距离最近 , 距离是 5 5 5 , P 11 P_{11} P11​ 样本 分组到 K 3 K_3 K3​ 组 ; P 12 P_{12} P12​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 3 C_3 C3​ 距离最近 , 距离是 9 9 9 , P 12 P_{12} P12​ 样本 分组到 K 3 K_3 K3​ 组 ; P 13 P_{13} P13​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 3 C_3 C3​ 距离最近 , 距离是 11 11 11 , P 13 P_{13} P13​ 样本 分组到 K 3 K_3 K3​ 组 ; P 14 P_{14} P14​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 3 C_3 C3​ 距离最近 , 距离是 25 25 25 , P 14 P_{14} P14​ 样本 分组到 K 3 K_3 K3​ 组 ;

2 . 当前分组依据的中心点 : { 1 , 20 , 40 } \{1 , 20 , 40\} {1,20,40}

3 . 当前分组结果 :

K 1 = { P 1 , P 2 , P 3 , P 4 , P 5 } K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} , P_{5} \} K1​={P1​,P2​,P3​,P4​,P5​}

K 2 = { P 6 , P 7 , P 8 } K_2 = \{ P_{6} , P_{7} , P_{8} \} K2​={P6​,P7​,P8​}

K 3 = { P 9 , P 10 , P 11 , P 12 , P 13 , P 14 } K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \} K3​={P9​,P10​,P11​,P12​,P13​,P14​}

第一次迭代 : 步骤 ( 3 ) 计算中心值

根据新的聚类分组计算新的中心值 :

① 计算 K 1 K_1 K1​ 分组的中心值 : K 1 = { P 1 , P 2 , P 3 , P 4 , P 5 } K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} , P_{5} \} K1​={P1​,P2​,P3​,P4​,P5​} , 计算过程如下 :

C 1 = 1 + 3 + 5 + 8 + 9 5 = 5 C_1 = \frac{1 + 3 + 5 + 8 + 9 }{5} = 5 C1​=51+3+5+8+9​=5

② 计算 K 2 K_2 K2​ 分组的中心值 : K 2 = { P 6 , P 7 , P 8 } K_2 = \{ P_{6} , P_{7} , P_{8} \} K2​={P6​,P7​,P8​} , 计算过程如下 :

C 2 = 11 + 12 + 13 3 = 12 C_2 = \frac{11 + 12 + 13}{3} = 12 C2​=311+12+13​=12

③ 计算 K 3 K_3 K3​ 分组的中心值 : K 3 = { P 9 , P 10 , P 11 , P 12 , P 13 , P 14 } K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \} K3​={P9​,P10​,P11​,P12​,P13​,P14​} , 计算过程如下 :

C 3 = 37 + 43 + 45 + 49 + 51 + 65 6 = 48 C_3 = \frac{37 + 43 + 45 + 49 + 51 + 65}{6} = 48 C3​=637+43+45+49+51+65​=48

最新计算出的 C 1 , C 2 , C 3 C_1 , C_2 , C_3 C1​,C2​,C3​ 中心点是 { 5 , 12 , 48 } \{5 , 12 , 48\} {5,12,48}

第二次迭代 : 步骤 ( 1 ) 计算距离

计算 14 14 14 个样本 与 3 3 3 个中心点的距离 :

① 表格含义 : 如下 P 1 P_1 P1​ 与 C 1 C_1 C1​ 对应的表格位置值是 P 1 P_1 P1​ 样本 与 C 1 C_1 C1​ 中心点的曼哈顿距离 , 即 两个值相减取绝对值 ;

② 计算方式 : 计算 P i P_i Pi​ 与 C j C_j Cj​ 之间的距离 , 直接将两个数值相减取平均值即可 ; i i i 取值范围 , { 1 , 2 , ⋯   , 14 } \{1 , 2 , \cdots , 14\} {1,2,⋯,14} , j j j 的取值范围 { 1 , 2 , 3 } \{1 , 2, 3\} {1,2,3} ;

③ 计算示例 : 如 P 3 P_3 P3​ 样本 与 C 2 C_2 C2​ 中心点的距离计算 , P 3 P_3 P3​ 样本的年龄属性值是 5 5 5 , C 2 C_2 C2​ 中心点值为 12 12 12 ; d ( P 3 , C 2 ) d(P_3, C_2) d(P3​,C2​) 表示两个点之间的距离 ;

d ( P 3 , C 2 ) = ∣ 5 − 12 ∣ = 7 d(P_3, C_2) = |5 - 12| = 7 d(P3​,C2​)=∣5−12∣=7

下表中的 P 3 P_3 P3​ 行 C 2 C_2 C2​ 列对应的值是 7 7 7 , 即上面计算出来的距离值 ;

年龄聚类 C 1 C_1 C1​ C 2 C_2 C2​ C 3 C_3 C3​中心值 5 5 5 12 12 12 48 48 48 P 1 P_{1} P1​ 1 1 1 4 4 4 11 11 11 47 47 47 P 2 P_2 P2​ 3 3 3 2 2 2 9 9 9 45 45 45 P 3 P_3 P3​ 5 5 5 0 0 0 7 7 7 43 43 43 P 4 P_4 P4​ 8 8 8 3 3 3 4 4 4 40 40 40 P 5 P_5 P5​ 9 9 9 4 4 4 3 3 3 39 39 39 P 6 P_6 P6​ 11 11 11 6 6 6 1 1 1 37 37 37 P 7 P_7 P7​ 12 12 12 7 7 7 0 0 0 36 36 36 P 8 P_8 P8​ 13 13 13 8 8 8 1 1 1 35 35 35 P 9 P_9 P9​ 37 37 37 25 25 25 17 17 17 11 11 11 P 10 P_{10} P10​ 43 43 43 38 38 38 31 31 31 5 5 5 P 11 P_{11} P11​ 45 45 45 40 40 40 33 33 33 3 3 3 P 12 P_{12} P12​ 49 49 49 44 44 44 37 37 37 1 1 1 P 13 P_{13} P13​ 51 51 51 46 46 46 39 39 39 3 3 3 P 14 P_{14} P14​ 65 65 65 60 60 60 53 53 53 17 17 17 第二次迭代 : 步骤 ( 2 ) 聚类分组

1 . 为 { P 1 , P 2 , ⋯   , P 14 } \{P_1 , P_2, \cdots , P_{14}\} {P1​,P2​,⋯,P14​} 这 14 14 14 个样本分组 :

P 1 P_{1} P1​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 1 C_1 C1​ 距离最近 , 距离是 4 4 4 , P 1 P_1 P1​ 样本 分组到 K 1 K_1 K1​ 组 ; P 2 P_{2} P2​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 1 C_1 C1​ 距离最近 , 距离是 2 2 2 , P 2 P_2 P2​ 样本 分组到 K 1 K_1 K1​ 组 ; P 3 P_{3} P3​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 1 C_1 C1​ 距离最近 , 距离是 0 0 0 , P 3 P_3 P3​ 样本 分组到 K 1 K_1 K1​ 组 ; P 4 P_{4} P4​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 1 C_1 C1​ 距离最近 , 距离是 3 3 3 , P 4 P_4 P4​ 样本 分组到 K 1 K_1 K1​ 组 ;

P 5 P_{5} P5​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 2 C_2 C2​ 距离最近 , 距离是 3 3 3 , P 5 P_5 P5​ 样本 分组到 K 1 K_1 K1​ 组 ; P 6 P_{6} P6​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 2 C_2 C2​ 距离最近 , 距离是 1 1 1 , P 6 P_6 P6​ 样本 分组到 K 2 K_2 K2​ 组 ; P 7 P_{7} P7​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 2 C_2 C2​ 距离最近 , 距离是 0 0 0 , P 7 P_7 P7​ 样本 分组到 K 2 K_2 K2​ 组 ; P 8 P_{8} P8​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 2 C_2 C2​ 距离最近 , 距离是 1 1 1 , P 8 P_8 P8​ 样本 分组到 K 2 K_2 K2​ 组 ;

P 9 P_{9} P9​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 3 C_3 C3​ 距离最近 , 距离是 11 11 11 , P 9 P_9 P9​ 样本 分组到 K 3 K_3 K3​ 组 ; P 10 P_{10} P10​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 3 C_3 C3​ 距离最近 , 距离是 5 5 5 , P 10 P_{10} P10​ 样本 分组到 K 3 K_3 K3​ 组 ; P 11 P_{11} P11​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 3 C_3 C3​ 距离最近 , 距离是 3 3 3 , P 11 P_{11} P11​ 样本 分组到 K 3 K_3 K3​ 组 ; P 12 P_{12} P12​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 3 C_3 C3​ 距离最近 , 距离是 1 1 1 , P 12 P_{12} P12​ 样本 分组到 K 3 K_3 K3​ 组 ; P 13 P_{13} P13​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 3 C_3 C3​ 距离最近 , 距离是 3 3 3 , P 13 P_{13} P13​ 样本 分组到 K 3 K_3 K3​ 组 ; P 14 P_{14} P14​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 3 C_3 C3​ 距离最近 , 距离是 17 17 17 , P 14 P_{14} P14​ 样本 分组到 K 3 K_3 K3​ 组 ;

2 . 当前分组依据的中心点 : { 5 , 12 , 48 } \{5 , 12 , 48\} {5,12,48}

3 . 当前分组结果 :

K 1 = { P 1 , P 2 , P 3 , P 4 } K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} \} K1​={P1​,P2​,P3​,P4​}

K 2 = { P 5 , P 6 , P 7 , P 8 } K_2 = \{ P_{5} , P_{6} , P_{7} , P_{8} \} K2​={P5​,P6​,P7​,P8​}

K 3 = { P 9 , P 10 , P 11 , P 12 , P 13 , P 14 } K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \} K3​={P9​,P10​,P11​,P12​,P13​,P14​}

第二次迭代 : 步骤 ( 3 ) 计算中心值

根据新的聚类分组计算新的中心值 :

① 计算 K 1 K_1 K1​ 分组的中心值 : K 1 = { P 1 , P 2 , P 3 , P 4 } K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} \} K1​={P1​,P2​,P3​,P4​} , 计算过程如下 :

C 1 = 1 + 3 + 5 + 8 4 = 4 C_1 = \frac{1 + 3 + 5 + 8 }{4} = 4 C1​=41+3+5+8​=4

② 计算 K 2 K_2 K2​ 分组的中心值 : K 2 = { P 5 , P 6 , P 7 , P 8 } K_2 = \{ P_{5} , P_{6} , P_{7} , P_{8} \} K2​={P5​,P6​,P7​,P8​}, 计算过程如下 :

C 2 = 9 + 11 + 12 + 13 4 = 11 C_2 = \frac{9 + 11 + 12 + 13}{4} = 11 C2​=49+11+12+13​=11

③ 计算 K 3 K_3 K3​ 分组的中心值 : K 3 = { P 9 , P 10 , P 11 , P 12 , P 13 , P 14 } K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \} K3​={P9​,P10​,P11​,P12​,P13​,P14​} , 计算过程如下 : ( 与上次对比没有变化 )

C 3 = 37 + 43 + 45 + 49 + 51 + 65 6 = 48 C_3 = \frac{37 + 43 + 45 + 49 + 51 + 65}{6} = 48 C3​=637+43+45+49+51+65​=48

最新计算出的 C 1 , C 2 , C 3 C_1 , C_2 , C_3 C1​,C2​,C3​ 中心点是 { 4 , 11 , 48 } \{4 , 11 , 48\} {4,11,48}

第三次迭代 : 步骤 ( 1 ) 计算距离

计算 14 14 14 个样本 与 3 3 3 个中心点的距离 :

① 表格含义 : 如下 P 1 P_1 P1​ 与 C 1 C_1 C1​ 对应的表格位置值是 P 1 P_1 P1​ 样本 与 C 1 C_1 C1​ 中心点的曼哈顿距离 , 即 两个值相减取绝对值 ;

② 计算方式 : 计算 P i P_i Pi​ 与 C j C_j Cj​ 之间的距离 , 直接将两个数值相减取平均值即可 ; i i i 取值范围 , { 1 , 2 , ⋯   , 14 } \{1 , 2 , \cdots , 14\} {1,2,⋯,14} , j j j 的取值范围 { 1 , 2 , 3 } \{1 , 2, 3\} {1,2,3} ;

③ 计算示例 : 如 P 3 P_3 P3​ 样本 与 C 2 C_2 C2​ 中心点的距离计算 , P 3 P_3 P3​ 样本的年龄属性值是 5 5 5 , C 2 C_2 C2​ 中心点值为 11 11 11 ; d ( P 3 , C 2 ) d(P_3, C_2) d(P3​,C2​) 表示两个点之间的距离 ;

d ( P 3 , C 2 ) = ∣ 5 − 11 ∣ = 6 d(P_3, C_2) = |5 - 11| = 6 d(P3​,C2​)=∣5−11∣=6

下表中的 P 3 P_3 P3​ 行 C 2 C_2 C2​ 列对应的值是 6 6 6 , 即上面计算出来的距离值 ;

年龄聚类 C 1 C_1 C1​ C 2 C_2 C2​ C 3 C_3 C3​中心值 4 4 4 11 11 11 48 48 48 P 1 P_{1} P1​ 1 1 1 3 3 3 10 10 10 47 47 47 P 2 P_2 P2​ 3 3 3 1 1 1 8 8 8 45 45 45 P 3 P_3 P3​ 5 5 5 1 1 1 6 6 6 43 43 43 P 4 P_4 P4​ 8 8 8 4 4 4 3 3 3 40 40 40 P 5 P_5 P5​ 9 9 9 5 5 5 2 2 2 39 39 39 P 6 P_6 P6​ 11 11 11 7 7 7 0 0 0 37 37 37 P 7 P_7 P7​ 12 12 12 8 8 8 1 1 1 36 36 36 P 8 P_8 P8​ 13 13 13 9 9 9 2 2 2 35 35 35 P 9 P_9 P9​ 37 37 37 33 33 33 26 26 26 11 11 11 P 10 P_{10} P10​ 43 43 43 39 39 39 32 32 32 5 5 5 P 11 P_{11} P11​ 45 45 45 41 41 41 34 34 34 3 3 3 P 12 P_{12} P12​ 49 49 49 45 45 45 38 38 38 1 1 1 P 13 P_{13} P13​ 51 51 51 47 47 47 40 40 40 3 3 3 P 14 P_{14} P14​ 65 65 65 61 61 61 54 54 54 17 17 17 第三次迭代 : 步骤 ( 2 ) 聚类分组

1 . 为 { P 1 , P 2 , ⋯   , P 14 } \{P_1 , P_2, \cdots , P_{14}\} {P1​,P2​,⋯,P14​} 这 14 14 14 个样本分组 :

P 1 P_{1} P1​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 1 C_1 C1​ 距离最近 , 距离是 3 3 3 , P 1 P_1 P1​ 样本 分组到 K 1 K_1 K1​ 组 ; P 2 P_{2} P2​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 1 C_1 C1​ 距离最近 , 距离是 1 1 1 , P 2 P_2 P2​ 样本 分组到 K 1 K_1 K1​ 组 ; P 3 P_{3} P3​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 1 C_1 C1​ 距离最近 , 距离是 1 1 1 , P 3 P_3 P3​ 样本 分组到 K 1 K_1 K1​ 组 ;

P 4 P_{4} P4​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 2 C_2 C2​ 距离最近 , 距离是 3 3 3 , P 4 P_4 P4​ 样本 分组到 K 1 K_1 K1​ 组 ; P 5 P_{5} P5​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 2 C_2 C2​ 距离最近 , 距离是 2 2 2 , P 5 P_5 P5​ 样本 分组到 K 1 K_1 K1​ 组 ; P 6 P_{6} P6​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 2 C_2 C2​ 距离最近 , 距离是 0 0 0 , P 6 P_6 P6​ 样本 分组到 K 2 K_2 K2​ 组 ; P 7 P_{7} P7​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 2 C_2 C2​ 距离最近 , 距离是 1 1 1 , P 7 P_7 P7​ 样本 分组到 K 2 K_2 K2​ 组 ; P 8 P_{8} P8​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 2 C_2 C2​ 距离最近 , 距离是 2 2 2 , P 8 P_8 P8​ 样本 分组到 K 2 K_2 K2​ 组 ;

P 9 P_{9} P9​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 3 C_3 C3​ 距离最近 , 距离是 11 11 11 , P 9 P_9 P9​ 样本 分组到 K 3 K_3 K3​ 组 ; P 10 P_{10} P10​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 3 C_3 C3​ 距离最近 , 距离是 5 5 5 , P 10 P_{10} P10​ 样本 分组到 K 3 K_3 K3​ 组 ; P 11 P_{11} P11​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 3 C_3 C3​ 距离最近 , 距离是 3 3 3 , P 11 P_{11} P11​ 样本 分组到 K 3 K_3 K3​ 组 ; P 12 P_{12} P12​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 3 C_3 C3​ 距离最近 , 距离是 1 1 1 , P 12 P_{12} P12​ 样本 分组到 K 3 K_3 K3​ 组 ; P 13 P_{13} P13​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 3 C_3 C3​ 距离最近 , 距离是 3 3 3 , P 13 P_{13} P13​ 样本 分组到 K 3 K_3 K3​ 组 ; P 14 P_{14} P14​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 3 C_3 C3​ 距离最近 , 距离是 17 17 17 , P 14 P_{14} P14​ 样本 分组到 K 3 K_3 K3​ 组 ;

2 . 当前分组依据的中心点 : { 4 , 11 , 48 } \{4 , 11 , 48\} {4,11,48}

3 . 当前分组结果 :

K 1 = { P 1 , P 2 , P 3 } K_1 = \{ P_{1} , P_{2} , P_{3} \} K1​={P1​,P2​,P3​}

K 2 = { P 4 , P 5 , P 6 , P 7 , P 8 } K_2 = \{ P_{4} , P_{5} , P_{6} , P_{7} , P_{8} \} K2​={P4​,P5​,P6​,P7​,P8​}

K 3 = { P 9 , P 10 , P 11 , P 12 , P 13 , P 14 } K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \} K3​={P9​,P10​,P11​,P12​,P13​,P14​}

第三次迭代 : 步骤 ( 3 ) 计算中心值

根据新的聚类分组计算新的中心值 :

① 计算 K 1 K_1 K1​ 分组的中心值 : K 1 = { P 1 , P 2 , P 3 } K_1 = \{ P_{1} , P_{2} , P_{3} \} K1​={P1​,P2​,P3​} , 计算过程如下 :

C 1 = 1 + 3 + 5 3 = 3 C_1 = \frac{1 + 3 + 5 }{3} = 3 C1​=31+3+5​=3

② 计算 K 2 K_2 K2​ 分组的中心值 : K 2 = { P 4 , P 5 , P 6 , P 7 , P 8 } K_2 = \{ P_{4} , P_{5} , P_{6} , P_{7} , P_{8} \} K2​={P4​,P5​,P6​,P7​,P8​}, 计算过程如下 :

C 2 = 8 + 9 + 11 + 12 + 13 5 = 10 C_2 = \frac{8 + 9 + 11 + 12 + 13}{5} = 10 C2​=58+9+11+12+13​=10

③ 计算 K 3 K_3 K3​ 分组的中心值 : K 3 = { P 9 , P 10 , P 11 , P 12 , P 13 , P 14 } K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \} K3​={P9​,P10​,P11​,P12​,P13​,P14​} , 计算过程如下 : ( 与上次对比没有变化 )

C 3 = 37 + 43 + 45 + 49 + 51 + 65 6 = 48 C_3 = \frac{37 + 43 + 45 + 49 + 51 + 65}{6} = 48 C3​=637+43+45+49+51+65​=48

最新计算出的 C 1 , C 2 , C 3 C_1 , C_2 , C_3 C1​,C2​,C3​ 中心点是 { 3 , 10 , 48 } \{3 , 10 , 48\} {3,10,48}

第四次迭代 : 步骤 ( 1 ) 计算距离

计算 14 14 14 个样本 与 3 3 3 个中心点的距离 :

① 表格含义 : 如下 P 1 P_1 P1​ 与 C 1 C_1 C1​ 对应的表格位置值是 P 1 P_1 P1​ 样本 与 C 1 C_1 C1​ 中心点的曼哈顿距离 , 即 两个值相减取绝对值 ;

② 计算方式 : 计算 P i P_i Pi​ 与 C j C_j Cj​ 之间的距离 , 直接将两个数值相减取平均值即可 ; i i i 取值范围 , { 1 , 2 , ⋯   , 14 } \{1 , 2 , \cdots , 14\} {1,2,⋯,14} , j j j 的取值范围 { 1 , 2 , 3 } \{1 , 2, 3\} {1,2,3} ;

③ 计算示例 : 如 P 3 P_3 P3​ 样本 与 C 2 C_2 C2​ 中心点的距离计算 , P 3 P_3 P3​ 样本的年龄属性值是 5 5 5 , C 2 C_2 C2​ 中心点值为 10 10 10 ; d ( P 3 , C 2 ) d(P_3, C_2) d(P3​,C2​) 表示两个点之间的距离 ;

d ( P 2 , C 3 ) = ∣ 5 − 10 ∣ = 5 d(P_2, C_3) = |5 - 10| = 5 d(P2​,C3​)=∣5−10∣=5

下表中的 P 3 P_3 P3​ 行 C 2 C_2 C2​ 列对应的值是 5 5 5 , 即上面计算出来的距离值 ;

年龄聚类 C 1 C_1 C1​ C 2 C_2 C2​ C 3 C_3 C3​中心值 3 3 3 10 10 10 48 48 48 P 1 P_{1} P1​ 1 1 1 2 2 2 9 9 9 47 47 47 P 2 P_2 P2​ 3 3 3 0 0 0 7 7 7 45 45 45 P 3 P_3 P3​ 5 5 5 2 2 2 5 5 5 43 43 43 P 4 P_4 P4​ 8 8 8 5 5 5 2 2 2 40 40 40 P 5 P_5 P5​ 9 9 9 6 6 6 1 1 1 39 39 39 P 6 P_6 P6​ 11 11 11 8 8 8 1 1 1 37 37 37 P 7 P_7 P7​ 12 12 12 9 9 9 2 2 2 36 36 36 P 8 P_8 P8​ 13 13 13 10 10 10 3 3 3 35 35 35 P 9 P_9 P9​ 37 37 37 34 34 34 27 27 27 11 11 11 P 10 P_{10} P10​ 43 43 43 40 40 40 33 33 33 5 5 5 P 11 P_{11} P11​ 45 45 45 42 42 42 35 35 35 3 3 3 P 12 P_{12} P12​ 49 49 49 46 46 46 39 39 39 1 1 1 P 13 P_{13} P13​ 51 51 51 48 48 48 41 41 41 3 3 3 P 14 P_{14} P14​ 65 65 65 62 62 62 55 55 55 17 17 17 第四次迭代 : 步骤 ( 2 ) 聚类分组

1 . 为 { P 1 , P 2 , ⋯   , P 14 } \{P_1 , P_2, \cdots , P_{14}\} {P1​,P2​,⋯,P14​} 这 14 14 14 个样本分组 :

P 1 P_{1} P1​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 1 C_1 C1​ 距离最近 , 距离是 2 2 2 , P 1 P_1 P1​ 样本 分组到 K 1 K_1 K1​ 组 ; P 2 P_{2} P2​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 1 C_1 C1​ 距离最近 , 距离是 0 0 0 , P 2 P_2 P2​ 样本 分组到 K 1 K_1 K1​ 组 ; P 3 P_{3} P3​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 1 C_1 C1​ 距离最近 , 距离是 2 2 2 , P 3 P_3 P3​ 样本 分组到 K 1 K_1 K1​ 组 ;

P 4 P_{4} P4​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 2 C_2 C2​ 距离最近 , 距离是 2 2 2 , P 4 P_4 P4​ 样本 分组到 K 1 K_1 K1​ 组 ; P 5 P_{5} P5​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 2 C_2 C2​ 距离最近 , 距离是 1 1 1 , P 5 P_5 P5​ 样本 分组到 K 1 K_1 K1​ 组 ; P 6 P_{6} P6​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 2 C_2 C2​ 距离最近 , 距离是 1 1 1 , P 6 P_6 P6​ 样本 分组到 K 2 K_2 K2​ 组 ; P 7 P_{7} P7​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 2 C_2 C2​ 距离最近 , 距离是 2 2 2 , P 7 P_7 P7​ 样本 分组到 K 2 K_2 K2​ 组 ; P 8 P_{8} P8​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 2 C_2 C2​ 距离最近 , 距离是 3 3 3 , P 8 P_8 P8​ 样本 分组到 K 2 K_2 K2​ 组 ;

P 9 P_{9} P9​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 3 C_3 C3​ 距离最近 , 距离是 11 11 11 , P 9 P_9 P9​ 样本 分组到 K 3 K_3 K3​ 组 ; P 10 P_{10} P10​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 3 C_3 C3​ 距离最近 , 距离是 5 5 5 , P 10 P_{10} P10​ 样本 分组到 K 3 K_3 K3​ 组 ; P 11 P_{11} P11​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 3 C_3 C3​ 距离最近 , 距离是 3 3 3 , P 11 P_{11} P11​ 样本 分组到 K 3 K_3 K3​ 组 ; P 12 P_{12} P12​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 3 C_3 C3​ 距离最近 , 距离是 1 1 1 , P 12 P_{12} P12​ 样本 分组到 K 3 K_3 K3​ 组 ; P 13 P_{13} P13​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 3 C_3 C3​ 距离最近 , 距离是 3 3 3 , P 13 P_{13} P13​ 样本 分组到 K 3 K_3 K3​ 组 ; P 14 P_{14} P14​ 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1​,C2​,C3​} 三个中心点中的 C 3 C_3 C3​ 距离最近 , 距离是 17 17 17 , P 14 P_{14} P14​ 样本 分组到 K 3 K_3 K3​ 组 ;

2 . 当前分组依据的中心点 : { 3 , 10 , 48 } \{3 , 10 , 48\} {3,10,48}

3 . 当前分组结果 :

K 1 = { P 1 , P 2 , P 3 } K_1 = \{ P_{1} , P_{2} , P_{3} \} K1​={P1​,P2​,P3​}

K 2 = { P 4 , P 5 , P 6 , P 7 , P 8 } K_2 = \{ P_{4} , P_{5} , P_{6} , P_{7} , P_{8} \} K2​={P4​,P5​,P6​,P7​,P8​}

K 3 = { P 9 , P 10 , P 11 , P 12 , P 13 , P 14 } K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \} K3​={P9​,P10​,P11​,P12​,P13​,P14​}

本次分组与上一次分组没有变化 , 说明聚类算法已经收敛 , 该结果就是聚类最终结果 ;

关注
打赏
1663594092
查看更多评论
立即登录/注册

微信扫码登录

0.1839s