您当前的位置: 首页 >  算法

韩曙亮

暂无认证

  • 1浏览

    0关注

    1068博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )

韩曙亮 发布时间:2020-11-13 17:39:55 ,浏览量:1

文章目录
  • 一、 关联规则
  • 二、 数据项支持度
  • 三、 关联规则支持度

参考博客 :

  • 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )
一、 关联规则

关联规则 是指 :

某些 项集 出现在一个 事务 中 ,

可以推导出 :

另外一些 项集 也出现在同一个 事务 中 ;

如 : 事物 2 2 2 : t 2 = { 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 } t_2 = \{ 莴苣 , 尿布 , 啤酒 , 甜菜 \} t2​={莴苣,尿布,啤酒,甜菜}

{ 啤 酒 } \{ 啤酒 \} {啤酒} 1 1 1 项集 出现在购买清单 事务 2 2 2 中 , { 尿 布 } \{ 尿布 \} {尿布} 1 1 1 项集 也出现在购买清单 事务 2 2 2 中 ;

二、 数据项支持度

支持度 表示 数据项 ( Item ) 在 事务 ( Transaction ) 中的 出现频度 ;

支持度公式 :

S u p p o r t ( X ) = c o u n t ( X ) c o u n t ( D ) \rm Support (X) = \cfrac{count (X)}{count (D)} Support(X)=count(D)count(X)​

S u p p o r t ( X ) \rm Support (X) Support(X) 指的是 X \rm X X 项集的支持度 ;

c o u n t ( X ) \rm count (X) count(X) 指的是 数据集 D \rm D D 中含有项集 X \rm X X 的事务个数 ;

c o u n t ( D ) \rm count(D) count(D) 指的是 数据集 D \rm D D 的事务总数 ;

示例 : 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 ) 六、数据集、事物、项、项集合、项集 示例

数据集 D \rm D D 为 :

事物编号事物 ( 商品 ) 001 001 001奶粉 , 莴苣 002 002 002莴苣 , 尿布 , 啤酒 , 甜菜 003 003 003奶粉 , 尿布 , 啤酒 , 橙汁 004 004 004奶粉 , 莴苣 , 尿布 , 啤酒 005 005 005奶粉 , 莴苣 , 尿布 , 橙汁

项集 X = { 奶 粉 } \rm X=\{ 奶粉 \} X={奶粉} , 求该项集的支持度 ? \rm ? ?

根据上述公式 S u p p o r t ( X ) = c o u n t ( X ) c o u n t ( D ) \rm Support (X) = \cfrac{count (X)}{count (D)} Support(X)=count(D)count(X)​ 计算支持度 ;

c o u n t ( X ) \rm count (X) count(X) 指的是 数据集 D \rm D D 中含有项集 X \rm X X 的事务个数 ;

含有 X = { 奶 粉 } \rm X=\{ 奶粉 \} X={奶粉} 项集的事务有 事务 1 \rm 1 1 , 事务 3 3 3 , 事务 4 4 4 , 事务 5 5 5 , 得出 :

c o u n t ( X ) = 4 \rm count (X) = 4 count(X)=4

c o u n t ( D ) \rm count(D) count(D) 指的是 数据集 D \rm D D 的事务总数 ; 得出

c o u n t ( D ) = 5 \rm count(D) = 5 count(D)=5

则计算支持度 :

S u p p o r t ( X ) = c o u n t ( X ) c o u n t ( D ) \rm Support (X) = \cfrac{count (X)}{count (D)} Support(X)=count(D)count(X)​

S u p p o r t ( X ) = 4 5 \rm Support (X) = \cfrac{4}{5} Support(X)=54​

三、 关联规则支持度

关联规则 X ⇒ Y \rm X \Rightarrow Y X⇒Y 的支持度 ,

等于 项集 X ∪ Y \rm X \cup Y X∪Y 的支持度 ;

公式为 :

S u p p o r t ( X ⇒ Y ) = S u p p o r t ( X ∪ Y ) = c o u n t ( X ∪ Y ) c o u n t ( D ) \rm Support (X \Rightarrow Y) = Support (X \cup Y) = \cfrac{count (X \cup Y)}{count (D)} Support(X⇒Y)=Support(X∪Y)=count(D)count(X∪Y)​

示例 : 数据集 D \rm D D 为 :

事物编号事物 ( 商品 ) 001 001 001奶粉 , 莴苣 002 002 002莴苣 , 尿布 , 啤酒 , 甜菜 003 003 003奶粉 , 尿布 , 啤酒 , 橙汁 004 004 004奶粉 , 莴苣 , 尿布 , 啤酒 005 005 005奶粉 , 莴苣 , 尿布 , 橙汁

求关联规则 尿 布 ⇒ 啤 酒 \rm 尿布 \Rightarrow 啤酒 尿布⇒啤酒 的支持度 ? ? ?

上述问题等价于 , 项集 X = { 尿 布 , 啤 酒 } \rm X=\{ 尿布 , 啤酒 \} X={尿布,啤酒} 的支持度 ;

根据上述公式

S u p p o r t ( X ⇒ Y ) = S u p p o r t ( X ∪ Y ) = c o u n t ( X ∪ Y ) c o u n t ( D ) \rm Support (X \Rightarrow Y) = Support (X \cup Y) = \cfrac{count (X \cup Y)}{count (D)} Support(X⇒Y)=Support(X∪Y)=count(D)count(X∪Y)​

计算支持度 ;

c o u n t ( X ∪ Y ) \rm count (X \cup Y) count(X∪Y) 指的是 数据集 D \rm D D 中含有项集 X ∪ Y \rm X \cup Y X∪Y 的事务个数 ;

含有 X ∪ Y = { 尿 布 , 啤 酒 } \rm X \cup Y=\{ 尿布 , 啤酒 \} X∪Y={尿布,啤酒} 项集的事务有 事务 2 \rm 2 2 , 事务 3 3 3 , 事务 4 4 4 , 得出 :

c o u n t ( X ∪ Y ) = 3 \rm count (X \cup Y) = 3 count(X∪Y)=3

c o u n t ( D ) \rm count(D) count(D) 指的是 数据集 D \rm D D 的事务总数 ; 得出

c o u n t ( D ) = 5 \rm count(D) = 5 count(D)=5

则计算支持度 :

S u p p o r t ( X ⇒ Y ) = S u p p o r t ( X ∪ Y ) = c o u n t ( X ∪ Y ) c o u n t ( D ) \rm Support (X \Rightarrow Y) = Support (X \cup Y) = \cfrac{count (X \cup Y)}{count (D)} Support(X⇒Y)=Support(X∪Y)=count(D)count(X∪Y)​

S u p p o r t ( X ) = S u p p o r t ( X ∪ Y ) = 3 5 \rm Support (X) = Support (X \cup Y) = \cfrac{3}{5} Support(X)=Support(X∪Y)=53​

关注
打赏
1663594092
查看更多评论
立即登录/注册

微信扫码登录

0.0514s