您当前的位置: 首页 >  算法

韩曙亮

暂无认证

  • 2浏览

    0关注

    1068博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )

韩曙亮 发布时间:2020-11-13 12:52:37 ,浏览量:2

文章目录
  • 一、 关联规则挖掘简介
  • 二、 数据集 与 事物 ( Transaction ) 概念
  • 三、项 ( Item ) 概念
  • 四、项集 ( Item Set ) 概念
  • 五、频繁项集
  • 六、数据集、事物、项、项集合、项集 示例

一、 关联规则挖掘简介

Apriori 算法 是 关联规则 挖掘算法 ,

关联规则 反映了 对象之间 相互依赖关系 ,

可以通过 一个对象 的行为或属性 预测 其它对象的行为或属性 ;

关联规则 不是 因果关系 , 有可能有因果关系 , 有可能没有 ;

如 : 购买商品时 , 啤酒 与 尿布 就有关联关系 , 这两个之间肯定没有因果关系 , 有一种未知的关联关系 ;

关联规则挖掘步骤 :

① 步骤一 : 找出 支持度 ≥ \geq ≥ 最小支持度阈值 的 频繁项集 ;

② 步骤二 : 根据 频繁模式 生成 满足 可信度阈值 的 关联规则 ;

二、 数据集 与 事物 ( Transaction ) 概念

数据集 与 事物 ( Transaction ) 概念 :

数据挖掘 数据集 由 事物 构成 ;

数据集 记做 D D D ;

使用事物表示 数据集 , 表示为 D = { t 1 , t 2 , ⋯   , t n } D = \{ t_1 , t_2 , \cdots , t_n \} D={t1​,t2​,⋯,tn​} ,

其中 t k ,   ( k = 1 , 2 , ⋯   , n ) t_k , \ ( k = 1, 2, \cdots, n ) tk​, (k=1,2,⋯,n) 称为事物 ;

每个事物可以使用 唯一的标识符 表示 事物编号 ( TID ) ;

三、项 ( Item ) 概念

项 ( Item ) 概念 :

每个 事物 ( Transaction ) 由多个 项 ( Item ) 组成 ;

项 记做 i i i ;

表示为 t k = { i 1 , i 2 , ⋯   , i n } t_k = \{ i_1 , i_2 , \cdots , i_n \} tk​={i1​,i2​,⋯,in​} ;

数据集 D D D 是所有 项 i i i 的集合 是 I I I 集合 ;

四、项集 ( Item Set ) 概念

项集 ( Item Set ) 概念 :

I I I 中的 任意子集 X X X , 称为 数据集 D D D 的 项集 ( Item Set ) ;

如果 项集 ( Item Set ) 中 项 ( Item ) 个数为 k k k ,

则称该 项集 ( Item Set ) 为 k k k 项集 ( k-itemset ) ;

五、频繁项集

频繁项集 : 频繁项集指的是出现次数较多的项集 ;

六、数据集、事物、项、项集合、项集 示例 事物编号事物 ( 商品 ) 001 001 001奶粉 , 莴苣 002 002 002莴苣 , 尿布 , 啤酒 , 甜菜 003 003 003奶粉 , 尿布 , 啤酒 , 橙汁 004 004 004奶粉 , 莴苣 , 尿布 , 啤酒 005 005 005奶粉 , 莴苣 , 尿布 , 橙汁

整个 数据集 D D D , 由 5 5 5 个事物 构成 ;

数据集 : D = { t 1 , t 2 , t 3 , t 4 , t 5 } D = \{ t_1 , t_2 , t_3 , t_4, t_5 \} D={t1​,t2​,t3​,t4​,t5​}

事物 1 1 1 : t 1 = { 奶 粉 , 莴 苣 } t_1 = \{ 奶粉 , 莴苣 \} t1​={奶粉,莴苣}

事物 2 2 2 : t 2 = { 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 } t_2 = \{ 莴苣 , 尿布 , 啤酒 , 甜菜 \} t2​={莴苣,尿布,啤酒,甜菜}

事物 3 3 3 : t 3 = { 奶 粉 , 尿 布 , 啤 酒 , 橙 汁 } t_3 = \{ 奶粉 , 尿布 , 啤酒 , 橙汁 \} t3​={奶粉,尿布,啤酒,橙汁}

事物 4 4 4 : t 4 = { 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 } t_4 = \{ 奶粉 , 莴苣 , 尿布 , 啤酒 \} t4​={奶粉,莴苣,尿布,啤酒}

事物 5 5 5 : t 5 = { 奶 粉 , 莴 苣 , 尿 布 , 橙 汁 } t_5 = \{ 奶粉 , 莴苣 , 尿布 , 橙汁 \} t5​={奶粉,莴苣,尿布,橙汁}

上述 事物 集合中的元素 i i i 都称为项 , 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 , 橙 汁 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 , 橙汁 奶粉,莴苣,尿布,啤酒,甜菜,橙汁 都是 项 ;

I = { 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 , 橙 汁 } I = \{ 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 , 橙汁 \} I={奶粉,莴苣,尿布,啤酒,甜菜,橙汁}

项集 : 任意不相同的项组成的集合就称为项集 , 上述 6 6 6 个元素的集合有 2 6 2^6 26 个项集 ; 参考集合幂集个数

{ 奶 粉 } \{ 奶粉 \} {奶粉} 是 1 1 1 项集 ;

{ 尿 布 , 啤 酒 } \{ 尿布 , 啤酒 \} {尿布,啤酒} 是 2 2 2 项集 ;

{ 莴 苣 , 尿 布 , 啤 酒 } \{ 莴苣 , 尿布 , 啤酒 \} {莴苣,尿布,啤酒} 是 3 3 3 项集 ;

{ 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 } \{ 奶粉 , 莴苣 , 尿布 , 啤酒 \} {奶粉,莴苣,尿布,啤酒} 是 4 4 4 项集 ;

{ 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 } \{ 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 \} {奶粉,莴苣,尿布,啤酒,甜菜} 是 5 5 5 项集 ;

{ 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 , 橙 汁 } \{ 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 , 橙汁 \} {奶粉,莴苣,尿布,啤酒,甜菜,橙汁} 是 6 6 6 项集 ;

关注
打赏
1663594092
查看更多评论
立即登录/注册

微信扫码登录

0.0804s