您当前的位置: 首页 >  ar

韩曙亮

暂无认证

  • 1浏览

    0关注

    1068博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

【数据挖掘】聚类 Cluster 矩阵转换 数据矩阵 -> 相似度矩阵 ( 二元变量简介 | 二元变量可能性表 | 对称二元变量 | 简单匹配系数 | 非对称二元变量 | Jaccard 系数 )

韩曙亮 发布时间:2020-05-02 17:19:04 ,浏览量:1

文章目录
        • I . 二元变量
        • II . 二元变量 可能性表
        • III . 对称 二元变量 ( 恒定相似度 )
        • IV . 简单匹配系数 ( 恒定相似度计算 )
        • V . 不对称 二元变量 ( 非恒定相似度 )
        • VI . Jaccard 系数 ( 非恒定相似度计算 )
        • VII . 二元变量 相似度 计算实例

I . 二元变量

1 . 二元变量取值 : 二元变量只有两个取值 , 0 0 0 或 1 1 1 ;

① 1 1 1 : 积极取值 , 存在 , 正确 等含义 ;

② 0 0 0 : 消极取值 , 不存在 , 错误 等含义 ;

2 . 二元变量 示例 : 描述病人症状 , 1 1 1 表示病人在发烧 , 0 0 0 表示病人不发烧 ;

3 . 二元变量 的 相似度 计算方法 : 使用 区间标度变量 求样本间距离的方式 处理二元变量 , 误差很大 , 因此这里引入 二元变量可能性表 , 来计算样本的二元变量属性的相似度 ;

II . 二元变量 可能性表

二元变量 可能性表 : 计算 两个样本 二元变量属性相似度 ;

① 前提 : 二元变量 属性的权重 相同 ; ( 该二元变量权重又称为 恒定相似度 )

② 表中值的含义 : 样本有 p p p 个属性 , 每一对 对比相似度的样本都有 一个样本 i i i 和 一个样本 j j j ; 第 1 1 1 行第 1 1 1 列 表示 在一对相似度对比的样本中 , 样本 i i i 和 样本 j j j 取值都是 1 1 1 的 属性的个数 ;

样本 j j j 属性取值为 1 1 1样本 j j j 属性取值为 0 0 0属性总个数样本 i i i 属性取值为 1 1 1 a a a b b b a + b a + b a+b样本 i i i 属性取值为 0 0 0 c c c d d d c + d c + d c+d属性总个数 a + c a + c a+c b + d b + d b+d p p p

a a a 表示 数据集中 , 样本对象 i i i 和样本对象 j j j 中 , 属性取值都为 1 1 1 的 属性个数 ;

b b b 表示 数据集中 , 样本对象 i i i 属性取值为 1 1 1 , 样本对象 j j j 属性取值为 0 0 0 , 的属性个数 ;

c c c 表示 数据集中 , 样本对象 i i i 属性取值为 0 0 0 , 样本对象 j j j 属性取值为 1 1 1 , 的属性个数 ;

d d d 表示 数据集中 , 样本对象 i i i 和样本对象 j j j 中 , 属性取值都为 0 0 0 的属性个数 ;

a + c a + c a+c 表示样本 j j j 属性取值为 1 1 1 的 属性个数 ;

b + d b + d b+d 表示样本 j j j 属性取值为 0 0 0 的 属性个数 ;

a + b a + b a+b 表示样本 i i i 属性取值为 1 1 1 的 属性个数 ;

c + d c + d c+d 表示样本 i i i 属性取值为 0 0 0 的 属性个数 ;

样本的属性 总个数 是 a + b + c + d = p a + b + c + d = p a+b+c+d=p ;

III . 对称 二元变量 ( 恒定相似度 )

1 . 对称二元变量 : 二元变量可以取值 0 , 1 0 , 1 0,1 , 如果这两个取值权重相同 , 两个取值之间没有优先级 , 那么称该二元变量是对称的 ;

2 . 恒定相似度 : 对称二元变量 的相似度 , 称为恒定相似度 ;

3 . 恒定相似度特点 : 二元变量表示方式发生改变时 , 相似度的计算结果不会改变 ;

IV . 简单匹配系数 ( 恒定相似度计算 )

简单匹配系数 : 两个样本 i , j i , j i,j 之间 , 对称二元变量 的 恒定相似度 计算 , 使用 简单匹配系数 公式计算 , 公式如下 :

d ( i , j ) = b + c a + b + c + d d(i , j) = \frac {b + c} {a + b + c + d} d(i,j)=a+b+c+db+c​

d ( i , j ) d(i , j) d(i,j) 表示样本 i , j i,j i,j 之间的相似度 , 这是一个恒定相似度 , 两个样本的 对比的 二元变量 权值相同 ; b + c {b + c} b+c 是指 样本 i i i 和样本 j j j 取值不同的情况 的 相似度对比 次数 ; 如果取值为 0 , 说明样本完全相同 ;

a + b + c + d {a + b + c + d} a+b+c+d 是所有的相似度对比次数 ;

这是 样本 i i i 和 样本 j j j 对比 的 相似度值 ;

V . 不对称 二元变量 ( 非恒定相似度 )

1 . 不对称二元变量 概念 : 样本的属性值取值类型 是 二元变量 , 其取值为 0 0 0 或 1 1 1 , 这两个取值的权重不同 , 那么称该二元变量是 不对称二元变量 ;

2 . 不对称二元变量示例 : 某项疾病检查 , 将重要的输出结果 ( 得病 ) , 编码为 1 1 1 , 不重要的输出结果 ( 没有得病 ) , 编码为 0 0 0 ;

3 . 不对称二元变量 相似度 : 计算两个样本 i , j i,j i,j 不对称二元变量的相似度 , 两个样本都取值为 1 1 1 叫做正匹配 , 两个样本都取值为 0 0 0 叫做负匹配 , 正匹配 比 负匹配要更有意义 ;

4 . 非恒定相似度 : 不对称的二元变量的相似度 , 称为 非恒定相似度 ;

5 . 非恒定相似度示例 : 两个人都得某种病 , 这两个人的样本相似度就太高了 ; 两个人都没有得某种病 , 这种样本的相似度就不是那么高 , 因为这是正常情况 ; 因此不得病 取值为 0 0 0 的权重低 , 得病取值为 1 1 1 的权重 高 ;

VI . Jaccard 系数 ( 非恒定相似度计算 )

Jaccard 系数 : 两个样本 i , j i , j i,j 之间 , 不对称二元变量 的 非恒定相似度 计算 , 使用 Jaccard系数 公式计算 , 公式如下 :

d ( i , j ) = b + c a + b + c d(i , j) = \frac {b + c} {a + b + c} d(i,j)=a+b+cb+c​

d ( i , j ) d(i , j) d(i,j) 表示样本 i , j i,j i,j 之间的相似度 , 这是一个非恒定相似度 , 两个样本的 对比的 二元变量 权值不相同 , 取值为 1 1 1 的权重高于取值为 0 0 0 的权重 ;

b + c {b + c} b+c 是指 样本 i i i 和样本 j j j 取值不同的情况 的 相似度对比 次数 ; 如果取值为 0 , 说明样本完全相同 ;

a + b + c {a + b + c} a+b+c 是 除 两个样本都为 0 0 0 的情况外的其它 所有的 情况 的 相似度对比次数 ;

这是 样本 i i i 和 样本 j j j 对比 , 不相同的次数 , 占 取值都为 1 1 1 的次数 , 取值不同的次数 ( 1 , 0 1, 0 1,0 和 0 , 1 0, 1 0,1 两种情况 ) , 三个次数之和 的 比例 ;

VII . 二元变量 相似度 计算实例

1 . 给定如下数据集 : 给定 以下 3 3 3 个病人样本 数据集 ;

姓名性别是否发烧咳嗽测试 1测试 2测试 3测试 4Tom男是阴性阳性阴性阴性阴性Mary女是阴性阳性阴性阳性阴性Jerry男是阳性阴性阴性阴性阴性

① 二元变量编码 : 为上述数据进行编码 , 发烧编码为 1 1 1 , 不发烧编码为 0 0 0 , 咳嗽编码为 1 1 1 , 不咳嗽编码为 0 0 0 , 阳性编码为 1 1 1 , 阴性编码为 0 0 0 ;

② 忽略对称二元变量 : 性别的男女对病人分组 , 没有太多意义 , 取值 男 或 女 , 对分组影响不大 , 属于对称二元变量 , 这里分组是不考虑该变量 ;

③ 相似度对比 : 样本之间要进行 两两 对比 , 即进行 3 3 3 选 2 2 2 的组合 ( 不是排列 ) , 有 C 3 2 = 3 C_3^2 = 3 C32​=3 种方式 , 分别是 Tom 与 Mary 相似度对比 , Tom 与 Jerry 相似度对比 , Mary 与 Jerry 相似度对比 ;

2 . Tom 与 Mary 相似度对比 :

① 数据编码 : 将数据单独提取出来 , 编码比较 , 性别数据是 对称二元变量 , 这里忽略 ;

姓名是否发烧咳嗽测试 1测试 2测试 3测试 4Tom 1 1 1 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0Mary 1 1 1 0 0 0 1 1 1 0 0 0 1 1 1 0 0 0

② 根据上述总结列出二元变量可能性表如下 :

Tom 属性取值为 1 1 1Tom 属性取值为 0 0 0总个数Mary 属性取值为 1 1 1213Mary 属性取值为 0 0 0033总个数24 6 6 6

第 1 1 1 行 第 1 1 1 列 : Tom 和 Mary 的二元属性中取值都为 1 1 1 的属性个数 , 发烧 , 测试 1 1 1 , 两个样本中的 这 2 2 2 个 二元变量属性值 取值都是 1 1 1 , Tom 和 Mary 属性值都为 1 1 1 的属性个数是 2 2 2 个 , 分别是 发烧 , 测试 1 1 1 两个属性 ; 该表格位置值为 2 2 2 ;

第 1 1 1 行 第 2 2 2 列 : Tom 属性取值为 0 0 0 , Mary 属性取值为 1 1 1 , 只有 测试 3 3 3 符合 , 因此 该表格位置的值是 1 1 1 , 表示只有一个属性符合该要求 ;

第 1 1 1 行 第 3 3 3 列 : Mary 属性取值为 1 1 1 的属性个数 , 有 是否发烧 , 测试 1 1 1 , 测试 3 3 3 , 三个属性符合 , 因此 该表格位置的值是 3 3 3 , 表示 Mary 样本有 3 3 3 个属性符合该要求 , 即属性取值为 1 1 1 ;

第 2 2 2 行 第 1 1 1 列 : Tom 属性取值为 1 1 1 , Mary 属性取值为 0 0 0 , 没有属性符合该取值 , 因此 该表格位置的值是 0 0 0 , 表示没有属性符合该要求 ;

第 2 2 2 行 第 2 2 2 列 : Tom 和 Mary 的二元属性中取值都为 0 0 0 的属性个数 , 有 咳嗽 , 测试 2 2 2 , 测试 4 4 4 , 两个样本中的 这 3 3 3 个 二元变量属性值 取值都是 0 0 0 , Tom 和 Mary 属性值都为 0 0 0 的属性个数是 3 3 3 个 , 分别是 咳嗽 , 测试 2 2 2 , 测试 4 4 4 ; 该表格位置值是 3 3 3 ;

第 2 2 2 行 第 3 3 3 列 : Mary 属性取值为 0 0 0 的属性个数 , 有 测试 2 2 2 , 测试 4 4 4 , 2 2 2个属性符合 , 因此 该表格位置的值是 2 2 2 , 表示 Mary 样本有 2 2 2 个属性符合该要求 , 即取值为 0 0 0 ;

第 3 3 3 行 第 1 1 1 列 : Tom 属性取值为 1 1 1 的属性个数 , 有 发烧 , 测试 1 1 1 , 2 2 2个属性符合 , 因此 该表格位置的值是 2 2 2 , 表示 Tom 样本有 2 2 2 个属性符合该要求 , 即属性取值为 1 1 1 ;

第 3 3 3 行 第 2 2 2 列 : Tom 属性取值为 0 0 0 的属性个数 , 有 咳嗽 , 测试 2 2 2 , 测试 3 3 3 , 测试 4 4 4 , 4 4 4个属性符合 , 因此 该表格位置的值是 4 4 4 , 表示 Tom 样本有 4 4 4 个属性符合该要求 , 即属性取值为 0 0 0 ;

第 3 3 3 行 第 3 3 3 列 : 样本总的属性个数 , 这里是 6 6 6 ;

③ 根据 Jaccard 系数 计算相似度 :

d ( T o m , M a r y ) = b + c a + b + c = 0 + 1 2 + 0 + 1 ≈ 0.333 \begin{array}{lcr} d(Tom , Mary) &=& \dfrac {b + c} {a + b + c} \\\\ &=& \dfrac {0 + 1} {2 + 0 + 1} &\approx& 0.333 \end{array} d(Tom,Mary)​==​a+b+cb+c​2+0+10+1​​≈​0.333​

3 . Tom 与 Jerry 相似度对比 :

① 数据编码 : 将数据单独提取出来 , 编码比较 , 性别数据是 对称二元变量 , 这里忽略 ;

姓名是否发烧咳嗽测试 1测试 2测试 3测试 4Tom 1 1 1 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0Jerry 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0

② 根据上述总结列出二元变量可能性表如下 :

Tom 属性取值为 1 1 1Tom 属性取值为 0 0 0总个数Jerry 属性取值为 1 1 1112Jerry 属性取值为 0 0 0134总个数24 6 6 6

③ 根据 Jaccard 系数 计算相似度 :

d ( T o m , J e r r y ) = b + c a + b + c = 1 + 1 1 + 1 + 1 ≈ 0.667 \begin{array}{lcr} d(Tom , Jerry) &=& \dfrac {b + c} {a + b + c} \\\\ &=& \dfrac {1 + 1} {1 + 1 + 1} &\approx& 0.667 \end{array} d(Tom,Jerry)​==​a+b+cb+c​1+1+11+1​​≈​0.667​

4 . Marry 与 Jerry 相似度对比 :

① 数据编码 : 将数据单独提取出来 , 编码比较 , 性别数据是 对称二元变量 , 这里忽略 ;

姓名是否发烧咳嗽测试 1测试 2测试 3测试 4Marry 1 1 1 0 0 0 1 1 1 0 0 0 1 1 1 0 0 0Jerry 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0

② 根据上述总结列出二元变量可能性表如下 :

Marry 属性取值为 1 1 1Marry 属性取值为 0 0 0总个数Jerry 属性取值为 1 1 1112Jerry 属性取值为 0 0 0224总个数33 6 6 6

③ 根据 Jaccard 系数 计算相似度 :

d ( M a r y , J e r r y ) = b + c a + b + c = 1 + 2 1 + 1 + 2 = 0.75 \begin{array}{lcr} d(Mary, Jerry) &=& \dfrac {b + c} {a + b + c} \\\\ &=& \dfrac {1 + 2} {1 + 1 + 2} &=& 0.75 \end{array} d(Mary,Jerry)​==​a+b+cb+c​1+1+21+2​​=​0.75​

关注
打赏
1663594092
查看更多评论
立即登录/注册

微信扫码登录

0.0506s