您当前的位置: 首页 >  分类

韩曙亮

暂无认证

  • 1浏览

    0关注

    1068博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

【数据挖掘】数据挖掘总结 ( 拉普拉斯修正 | 贝叶斯分类器示例2 ) ★

韩曙亮 发布时间:2020-12-27 13:46:04 ,浏览量:1

文章目录
  • 一、 贝叶斯分类器分类的流程
  • 二、 拉普拉斯修正
  • 三、 贝叶斯分类器示例2

参考博客 :

  • 【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 )
  • 【数据挖掘】贝叶斯公式应用 拼写纠正示例分析 ( 先验概率 | 似然概率 | 后验概率 )
  • 【数据挖掘】贝叶斯公式在垃圾邮件过滤中的应用 ( 先验概率 | 似然概率 | 后验概率 )
  • 【数据挖掘】朴素贝叶斯分类器 ( 多属性概率计算 | 朴素贝叶斯分类案例分析 )
  • 【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 | 朴素贝叶斯分类应用场景 | 朴素贝叶斯优缺点 )
  • 【数据挖掘】贝叶斯信念网络 ( 马尔科夫假设 | 结构 | 有向无环图 | 参数 | 条件概率表 | 案例分析 )
一、 贝叶斯分类器分类的流程

已知条件 :

已知样本 : 已知若干个样本

未知样本 : 给定 1 1 1 个未知样本 , 其有 4 4 4 个属性组成向量 X \rm X X , 样本的分类有两种 , Y \rm Y Y 和 N \rm N N ; ( Yes / No )

分类步骤 :

计算两个概率 , 即

① 样本取值为 X \rm X X 向量时 , 分类为 Y \rm Y Y 的概率 , 公式为 P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y ) P ( X ) \rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)} P(Y∣X)=P(X)P(X∣Y)P(Y)​ , 其中 P ( X ∣ Y ) P ( Y ) \rm P(X | Y) P(Y) P(X∣Y)P(Y) 含义是 : 样本分类 Y \rm Y Y 的概率 P ( Y ) \rm P(Y) P(Y) , 乘以 样本分类为 Y \rm Y Y 前提下样本取值 X \rm X X 时的概率 P ( X ∣ Y ) \rm P(X | Y) P(X∣Y) , 是 P ( X Y ) \rm P(XY) P(XY) 共同发生的概率 ;

② 样本取值为 X \rm X X 向量时 , 分类为 N \rm N N 的概率 , 公式为 P ( N ∣ X ) = P ( X ∣ N ) P ( N ) P ( X ) \rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)} P(N∣X)=P(X)P(X∣N)P(N)​ , 其中 P ( X ∣ N ) P ( N ) \rm P(X | N) P(N) P(X∣N)P(N) 含义是 : 样本分类为 N \rm N N 的概率 P ( N ) \rm P(N) P(N) , 乘以 样本取值 N \rm N N 时的概率 P ( X ∣ N ) \rm P(X | N) P(X∣N) , 是 P ( X N ) \rm P(XN) P(XN) 共同发生的概率 ;

上述两个概率 , 哪个概率高 , 就将该样本分为哪个分类 ;

先验概率 : P ( Y ) \rm P(Y) P(Y) , P ( N ) \rm P(N) P(N) ;

后验概率 : P ( X ∣ Y ) \rm P(X | Y) P(X∣Y) , P ( X ∣ N ) \rm P(X | N) P(X∣N) ;

公式中每个元素的含义参考 【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 )

上述两个公式 P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y ) P ( X ) \rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)} P(Y∣X)=P(X)P(X∣Y)P(Y)​ 和 P ( N ∣ X ) = P ( X ∣ N ) P ( N ) P ( X ) \rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)} P(N∣X)=P(X)P(X∣N)P(N)​ , 分母都是 P ( X ) \rm P(X) P(X) , 只比较分子即可 , 其中先验概率 P ( Y ) \rm P(Y) P(Y) , P ( N ) \rm P(N) P(N) 很容易求得 , 重点是求两个后验概率 P ( X ∣ Y ) P ( Y ) \rm P(X | Y) P(Y) P(X∣Y)P(Y) , P ( X ∣ N ) P ( N ) \rm P(X | N) P(N) P(X∣N)P(N) ;

后验概率 P ( X ∣ Y ) \rm P(X | Y) P(X∣Y) 求法 : 针对 X \rm X X 向量中 4 4 4 个分量属性的取值 , 当样品类型是 Y \rm Y Y 时 , 分量 1 1 1 取值为该分量属性时的概率 , 同理计算出 4 4 4 个分量属性对应的 4 4 4 个概率 , 最后将 四个概率相乘 ;

后验概率 P ( X ∣ Y ) \rm P(X | Y) P(X∣Y) 再乘以先验概率 P ( Y ) \rm P(Y) P(Y) , 就是最终的 未知样本分类为 Y \rm Y Y 类型的概率 ;

最终对比样本 , ① 未知样本分类为 Y \rm Y Y 类型的概率 , ② 未知样本分类为 N \rm N N 类型的概率 , 哪个概率大 , 就分类为哪个类型 ;

二、 拉普拉斯修正

在计算后验概率 P ( X ∣ Y ) \rm P(X | Y) P(X∣Y) 时 , 需要计算出 当样品类型是 Y \rm Y Y 时 , X \rm X X 向量的 分量 1 1 1 取值为该分量属性时的概率 , 同理计算出 4 4 4 个分量属性对应的 4 4 4 个概率 , 最后将 四个概率相乘 ;

如果上述 4 4 4 个相乘的概率其中有一个是 0 0 0 , 那么最终结果肯定就是 0 0 0 , 这里需要避免这种情况 , 引入拉普拉斯修正 ;

直接上栗子 , 不扯公式 ;

如果计算时 , 9 9 9 个样本是购买商品的 , 但年龄都大于 30 30 30 , 计算过程如下 ;

P ( 年 龄 小 于 30 ∣ Y ) = 0 9 \rm P( 年龄小于 30 | Y) = \cfrac{0}{9} P(年龄小于30∣Y)=90​

拉普拉斯修正就是分子加 1 1 1 , 分母加上样本类型个数 2 2 2 ; ( 样本有两个类型 , Y \rm Y Y 购买商品 , N \rm N N 不购买商品 ) ;

P ( 年 龄 小 于 30 ∣ Y ) = 0 + 1 9 + 2 = 1 11 \rm P( 年龄小于 30 | Y) = \cfrac{0 + 1}{9 + 2} = \cfrac{1}{11} P(年龄小于30∣Y)=9+20+1​=111​

注意是所有的分量的概率都要进行拉普拉斯修正 , 不能只修正这一个 ;

具体的详细的公式以及理论查看 【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 | 朴素贝叶斯分类应用场景 | 朴素贝叶斯优缺点 )

三、 贝叶斯分类器示例2

分类需求 : 根据 年龄 , 收入水平 , 级别 , 部门 , 人数 , 预测 " 年龄 31..35 31..35 31..35, 收入 41 k . . 45 k \rm 41k..45k 41k..45k , s y s t e m s \rm systems systems 部门 " 的员工级别 ;

年龄收入级别部门人数 31..35 31..35 31..35 46 k . . 50 k \rm 46k..50k 46k..50k s e n i o r \rm senior senior s a l e s \rm sales sales 30 30 30 26..30 26..30 26..30 26 k . . 30 k \rm 26k..30k 26k..30k j u n i o r \rm junior junior s a l e s \rm sales sales 40 \rm 40 40 31..35 31..35 31..35 31 k . . 35 k \rm 31k..35k 31k..35k j u n i o r \rm junior junior s a l e s \rm sales sales 40 \rm 40 40 21..25 21..25 21..25 46 k . . 50 k \rm 46k..50k 46k..50k j u n i o r \rm junior junior s y s t e m s \rm systems systems 20 \rm 20 20 31..35 31..35 31..35 66 k . . 70 k \rm 66k..70k 66k..70k s e n i o r \rm senior senior s y s t e m s \rm systems systems 5 \rm 5 5 26..30 26..30 26..30 46 k . . 50 k \rm 46k..50k 46k..50k j u n i o r \rm junior junior s y s t e m s \rm systems systems 3 \rm 3 3 41..45 41..45 41..45 66 k . . 45 k \rm 66k..45k 66k..45k s e n i o r \rm senior senior s y s t e m s \rm systems systems 3 \rm 3 3 36..40 36..40 36..40 46 k . . 50 k \rm 46k..50k 46k..50k s e n i o r \rm senior senior m a r k e t i n g \rm marketing marketing 10 \rm 10 10 31..35 31..35 31..35 41 k . . 45 k \rm 41k..45k 41k..45k j u n i o r \rm junior junior m a r k e t i n g \rm marketing marketing 4 \rm 4 4 46..50 46..50 46..50 36 k . . 40 k \rm 36k..40k 36k..40k s e n i o r \rm senior senior s e c r e t a r y \rm secretary secretary 4 \rm 4 4 26..30 26..30 26..30 26 k . . 30 k \rm 26k..30k 26k..30k j u n i o r \rm junior junior s e c r e t a r y \rm secretary secretary 6 \rm 6 6

未知样本 取值 X \rm X X 向量 为 " 年龄 31..35 31..35 31..35, 收入 41 k . . 45 k \rm 41k..45k 41k..45k , s y s t e m s \rm systems systems 部门 " ;

未知样本 分类为 s e n i o r \rm senior senior ( 高级 ) 类型的概率 : P ( s e n i o r ∣ X ) = P ( X ∣ s e n i o r ) P ( s e n i o r ) P ( X ) \rm P(senior | X) = \cfrac{P(X|senior) P(senior)}{P(X)} P(senior∣X)=P(X)P(X∣senior)P(senior)​

未知样本 分类为 j u n i o r \rm junior junior ( 低级 ) 类型的概率 : P ( j u n i o r ∣ X ) = P ( X ∣ j u n i o r ) P ( j u n i o r ) P ( X ) \rm P(junior | X) = \cfrac{P(X|junior) P(junior)}{P(X)} P(junior∣X)=P(X)P(X∣junior)P(junior)​

上述两个概率的分母 P ( X ) \rm P(X) P(X) 是常数 , 对比时可以忽略 , 只需要对比分子即可 ;

先验概率 P ( s e n i o r ) = 52 165 \rm P(senior) = \cfrac{52}{165} P(senior)=16552​ , P ( j u n i o r ) = 113 165 \rm P(junior) = \cfrac{113}{165} P(junior)=165113​ , 52 52 52 个人是 s e n i o r \rm senior senior 级别 , 113 113 113 个人是 j u n i o r \rm junior junior 级别 ;

后验概率

① P ( X ∣ s e n i o r ) = P ( 年 龄 31..35 ∣ s e n i o r ) × P ( 收 入 41 k . . 45 k ∣ s e n i o r ) × P ( 部 门 s y s t e m s ∣ s e n i o r ) = 8 52 × 35 52 × 0 52 \rm \begin{array}{lcl} \rm P(X|senior) &=& \rm P( 年龄 31..35 | senior) \times P( 收入 41k..45k | senior) \times P( 部门 systems | senior ) \\\\ &=& \cfrac{8}{52} \times \cfrac{35}{52} \times \cfrac{0}{52} \\ \end{array} P(X∣senior)​==​P(年龄31..35∣senior)×P(收入41k..45k∣senior)×P(部门systems∣senior)528​×5235​×520​​

上述后验概率的结果为 0 \rm 0 0 , 需要进行 拉普拉斯修正 , 上述式子中的三个概率分子都需要 + 1 +1 +1 , 分母都需要 + 2 +2 +2 , 分母是分类的个数 , s e n i o r \rm senior senior 和 j u n i o r \rm junior junior 两个分类 , 因此分母 + 2 +2 +2 ;

拉普拉斯修正后的结果 :

P ( X ∣ s e n i o r ) = 8 + 1 52 + 2 × 35 + 1 52 + 2 × 0 + 1 52 + 2 = 9 54 × 36 54 × 1 54 \rm \begin{array}{lcl} \rm P(X|senior) &=& \rm \cfrac{8 + 1}{52 + 2} \times \cfrac{35 + 1}{52 + 2} \times \cfrac{0 + 1}{52 + 2} \\\\ &=& \cfrac{9}{54} \times \cfrac{36}{54} \times \cfrac{1}{54} \\ \end{array} P(X∣senior)​==​52+28+1​×52+235+1​×52+20+1​549​×5436​×541​​

② P ( X ∣ j u n i o r ) = P ( 年 龄 31..35 ∣ j u n i o r ) × P ( 收 入 41 k . . 45 k ∣ j u n i o r ) × P ( 部 门 s y s t e m s ∣ j u n i o r ) = 23 113 × 44 113 × 4 113 \rm \begin{array}{lcl} \rm P(X|junior) &=& \rm P( 年龄 31..35 | junior) \times P( 收入 41k..45k | junior) \times P( 部门 systems | junior) \\\\ &=& \cfrac{23}{113} \times \cfrac{44}{113} \times \cfrac{4}{113} \\ \end{array} P(X∣junior)​==​P(年龄31..35∣junior)×P(收入41k..45k∣junior)×P(部门systems∣junior)11323​×11344​×1134​​

未知样本 分类为 Y \rm Y Y 类型的概率 分子 : P ( X ∣ s e n i o r ) P ( s e n i o r ) = 9 54 × 36 54 × 1 54 × 52 165 ≈ 0.0006 \rm P(X|senior) P(senior) = \cfrac{9}{54} \times \cfrac{36}{54} \times \cfrac{1}{54} \times \cfrac{52}{165} \approx 0.0006 P(X∣senior)P(senior)=549​×5436​×541​×16552​≈0.0006

未知样本 分类为 N \rm N N 类型的概率 分子 : P ( X ∣ j u n i o r ) P ( j u n i o r ) = 23 113 × 44 113 × 4 113 × 113 165 ≈ 0.0024 \rm P(X|junior) P(junior) = \cfrac{23}{113} \times \cfrac{44}{113} \times \cfrac{4}{113} \times \cfrac{113}{165} \approx 0.0024 P(X∣junior)P(junior)=11323​×11344​×1134​×165113​≈0.0024

该样本分类 为 j u n i o r \rm junior junior , 是低级员工 ;

关注
打赏
1663594092
查看更多评论
立即登录/注册

微信扫码登录

0.0520s