您当前的位置: 首页 >  网络

静静的喝酒

暂无认证

  • 11浏览

    0关注

    99博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

机器学习笔记之概率图模型(三)贝叶斯网络之有向分离(D划分)

静静的喝酒 发布时间:2022-10-19 17:42:41 ,浏览量:11

机器学习笔记之概率图模型——贝叶斯网络之D划分
  • 引言
    • 回顾:贝叶斯网络的局部结构
      • 同父结构(Common Parent)
      • 顺序结构
      • V \mathcal V V型结构(V-Structure)
      • 关于贝叶斯网络局部结构的补充
    • D \mathcal D D划分(D-Separation)
    • D \mathcal D D划分与道德图
    • 从关联关系的角度认识道德图
      • 同父结构与对应道德图
      • 顺序结构与对应道德图
      • V \mathcal V V型结构与对应道德图

引言

上一节介绍了贝叶斯网络以及贝叶斯网络中条件独立性的识别:同父结构、顺序结构、 V \mathcal V V型结构。本节将介绍判别变量/特征之间是否具备条件独立性的方法—— D \mathcal D D划分。

回顾:贝叶斯网络的局部结构

在条件独立性的识别部分,介绍了三种贝叶斯网络中三个变量/特征之间的典型依赖关系:同父结构(Common Parent)、顺序结构、 V \mathcal V V型结构(V-Structure)。

同父结构(Common Parent)

同父结构的变量依赖关系表示如下: 同父结构 同父结构中变量/特征 i 1 , i 2 , i 3 i_1,i_2,i_3 i1​,i2​,i3​之间的依赖关系可表示为:给定父结点 i 1 i_1 i1​取值的条件下, i 2 , i 3 i_2,i_3 i2​,i3​之间条件独立。对应数学符号表示如下: i 2 ⊥ i 3 ∣ i 1 P ( i 2 , i 3 ∣ i 1 ) = P ( i 3 ∣ i 1 ) ⋅ P ( i 2 ∣ i 1 ) i_2 \perp i_3 \mid i_1 \\ \mathcal P(i_2,i_3 \mid i_1) = \mathcal P(i_3 \mid i_1) \cdot \mathcal P(i_2 \mid i_1) i2​⊥i3​∣i1​P(i2​,i3​∣i1​)=P(i3​∣i1​)⋅P(i2​∣i1​)

顺序结构

顺序结构的变量依赖关系表示如下: 顺序结构 顺序结构中变量/特征 i 1 , i 2 , i 3 i_1,i_2,i_3 i1​,i2​,i3​之间的依赖关系可表示为:给定结点 i 2 i_2 i2​取值的条件下, i 1 , i 3 i_1,i_3 i1​,i3​之间条件独立。对应数学符号表示如下: i 1 ⊥ i 3 ∣ i 2 P ( i 1 , i 3 ∣ i 2 ) = P ( i 3 ∣ i 2 ) ⋅ P ( i 1 ∣ i 2 ) i_1 \perp i_3 \mid i_2 \\ \mathcal P(i_1,i_3 \mid i_2) = \mathcal P(i_3 \mid i_2) \cdot \mathcal P(i_1 \mid i_2) i1​⊥i3​∣i2​P(i1​,i3​∣i2​)=P(i3​∣i2​)⋅P(i1​∣i2​)

V \mathcal V V型结构(V-Structure)

V \mathcal V V型结构的变量依赖关系表示如下: V型结构 V \mathcal V V型结构中变量/特征 i 1 , i 2 , i 3 i_1,i_2,i_3 i1​,i2​,i3​之间的依赖关系可表示为:若 i 3 i_3 i3​取值未知的条件下, i 1 , i 2 i_1,i_2 i1​,i2​之间条件独立;若给定 i 3 i_3 i3​取值的条件下, i 1 , i 2 i_1,i_2 i1​,i2​必不独立。对应数学符号表示如下: P ( i 3 ∣ i 1 , i 2 ) \mathcal P(i_3 \mid i_1,i_2) P(i3​∣i1​,i2​)即表示 i 3 i_3 i3​是在 i 1 , i 2 i_1,i_2 i1​,i2​给定的条件下,以‘条件概率’形式表现出的未知状态。 P ( i 3 ∣ i 1 , i 2 ) → P ( i 2 ) = P ( i 2 ∣ i 1 ) \mathcal P(i_3 \mid i_1,i_2) \to \mathcal P(i_2) = \mathcal P(i_2 \mid i_1) P(i3​∣i1​,i2​)→P(i2​)=P(i2​∣i1​)

关于贝叶斯网络局部结构的补充

关于 V \mathcal V V型结构中的条件独立性,譬如:某变量 C \mathcal C C未知的条件下,变量 A \mathcal A A与变量 B \mathcal B B之间相互独立 的情况,满足这种情况的条件独立性也称 边际独立性 (Marginal Independence)。数学符号表示如下: 这种独立性区别于‘一般的条件独立性’ i 1 ⊥ i 2 i_1 \perp i_2 i1​⊥i2​。 P ( i 3 ∣ i 1 , i 2 ) → P ( i 2 ) = P ( i 2 ∣ i 1 ) i 1 ⊥  ⁣ ⁣ ⁣ ⁣ ⊥ i 2 \mathcal P(i_3 \mid i_1,i_2) \to \mathcal P(i_2) = \mathcal P(i_2 \mid i_1) \\ i_1 \perp\!\!\!\!\perp i_2 P(i3​∣i1​,i2​)→P(i2​)=P(i2​∣i1​)i1​⊥⊥i2​

一个变量的取值与否,是否对另外两个变量的独立性产生影响,这个现象并不是 V \mathcal V V型结构特有的现象。

事实上,同父结构、顺序结构同样也存在这种现象:

  • 同父结构:
    • 给定结点 i 1 i_1 i1​取值的条件下, i 2 , i 3 i_2,i_3 i2​,i3​之间条件独立。即 i 2 ⊥ i 3 ∣ i 1 i_2 \perp i_3 \mid i_1 i2​⊥i3​∣i1​成立;
    • (相反)结点 i 1 i_1 i1​取值未知的条件下, i 2 , i 3 i_2,i_3 i2​,i3​之间条件不独立。即 i 2 ⊥  ⁣ ⁣ ⁣ ⁣ ⊥ i 3 i_2 \perp\!\!\!\!\perp i_3 i2​⊥⊥i3​不成立。
  • 顺序结构:
    • 给定结点 i 2 i_2 i2​取值的条件下, i 1 , i 3 i_1,i_3 i1​,i3​之间条件独立。即 i 1 ⊥ i 3 ∣ i 2 i_1 \perp i_3 \mid i_2 i1​⊥i3​∣i2​成立;
    • (相反)结点 i 2 i_2 i2​取值未知的条件下, i 1 , i 3 i_1,i_3 i1​,i3​之间条件不独立。即 i 1 ⊥  ⁣ ⁣ ⁣ ⁣ ⊥ i 3 i_1 \perp\!\!\!\!\perp i_3 i1​⊥⊥i3​不成立。

如果将贝叶斯网络结构再复杂一些。如下图表示: 复杂的贝叶斯网络 讨论:变量 i 4 i_4 i4​取值的确定与否,对 i 1 , i 2 i_1,i_2 i1​,i2​两个变量间的独立性发生什么影响? 推导过程如下:

  • 通过因子分解描述该形状的联合概率分布 P ( i 1 , i 2 , i 3 , i 4 ) \mathcal P(i_1,i_2,i_3,i_4) P(i1​,i2​,i3​,i4​): P ( i 1 , i 2 , i 3 , i 4 ) = P ( i 1 ) ⋅ P ( i 2 ) ⋅ P ( i 3 ∣ i 1 , i 2 ) ⋅ P ( i 4 ∣ i 3 ) \mathcal P(i_1,i_2,i_3,i_4) = \mathcal P(i_1) \cdot \mathcal P(i_2) \cdot \mathcal P(i_3 \mid i_1,i_2) \cdot \mathcal P(i_4 \mid i_3) P(i1​,i2​,i3​,i4​)=P(i1​)⋅P(i2​)⋅P(i3​∣i1​,i2​)⋅P(i4​∣i3​)
  • 通过联合概率分布的链式法则求解联合概率分布 P ( i 1 , i 2 , i 3 , i 4 ) \mathcal P(i_1,i_2,i_3,i_4) P(i1​,i2​,i3​,i4​): P ( i 1 , i 2 , i 3 , i 4 ) = P ( i 1 ) ⋅ P ( i 2 ∣ i 1 ) ⋅ P ( i 3 ∣ i 1 , i 2 ) ⋅ P ( i 4 ∣ i 1 , i 2 , i 3 ) \mathcal P(i_1,i_2,i_3,i_4) = \mathcal P(i_1) \cdot \mathcal P(i_2 \mid i_1) \cdot \mathcal P(i_3 \mid i_1,i_2) \cdot \mathcal P(i_4 \mid i_1,i_2,i_3) P(i1​,i2​,i3​,i4​)=P(i1​)⋅P(i2​∣i1​)⋅P(i3​∣i1​,i2​)⋅P(i4​∣i1​,i2​,i3​)
  • 上述两个公式描述的是同一概率分布,则有: P ( i 1 ) ⋅ P ( i 2 ) ⋅ P ( i 3 ∣ i 1 , i 2 ) ⋅ P ( i 4 ∣ i 3 ) = P ( i 1 ) ⋅ P ( i 2 ∣ i 1 ) ⋅ P ( i 3 ∣ i 1 , i 2 ) ⋅ P ( i 4 ∣ i 1 , i 2 , i 3 ) \mathcal P(i_1) \cdot \mathcal P(i_2) \cdot \mathcal P(i_3 \mid i_1,i_2) \cdot \mathcal P(i_4 \mid i_3) = \mathcal P(i_1) \cdot \mathcal P(i_2 \mid i_1) \cdot \mathcal P(i_3 \mid i_1,i_2) \cdot \mathcal P(i_4 \mid i_1,i_2,i_3) P(i1​)⋅P(i2​)⋅P(i3​∣i1​,i2​)⋅P(i4​∣i3​)=P(i1​)⋅P(i2​∣i1​)⋅P(i3​∣i1​,i2​)⋅P(i4​∣i1​,i2​,i3​) 经过化简,则有: P ( i 2 ) ⋅ P ( i 4 ∣ i 3 ) = P ( i 2 ∣ i 1 ) ⋅ P ( i 4 ∣ i 1 , i 2 , i 3 ) \mathcal P(i_2) \cdot \mathcal P(i_4 \mid i_3) = \mathcal P(i_2 \mid i_1) \cdot \mathcal P(i_4 \mid i_1,i_2,i_3) P(i2​)⋅P(i4​∣i3​)=P(i2​∣i1​)⋅P(i4​∣i1​,i2​,i3​)
  • 根据贝叶斯网络,观察:结点 i 4 i_4 i4​只和 i 3 i_3 i3​存在直接关联关系,而与 i 1 , i 2 i_1,i_2 i1​,i2​无直接关联关系。因而有: 由于无直接关联关系, i 2 , i 3 i_2,i_3 i2​,i3​是否给定,对 i 4 i_4 i4​的条件概率结果不产生影响。 P ( i 4 ∣ i 3 ) = P ( i 4 ∣ i 1 , i 2 , i 3 ) \mathcal P(i_4 \mid i_3) = \mathcal P(i_4 \mid i_1,i_2,i_3) P(i4​∣i3​)=P(i4​∣i1​,i2​,i3​) 将该式代入上式中,则有: P ( i 2 ) = P ( i 2 ∣ i 1 ) \mathcal P(i_2) = \mathcal P(i_2 \mid i_1) P(i2​)=P(i2​∣i1​)

由于 P ( i 2 ) = P ( i 2 ∣ i 1 ) \mathcal P(i_2) = \mathcal P(i_2 \mid i_1) P(i2​)=P(i2​∣i1​)是基于 P ( i 4 ∣ i 3 ) = P ( i 4 ∣ i 1 , i 2 , i 3 ) \mathcal P(i_4 \mid i_3) = \mathcal P(i_4 \mid i_1,i_2,i_3) P(i4​∣i3​)=P(i4​∣i1​,i2​,i3​)条件下成立的,基于上一节 V \mathcal V V型结构的规律, i 4 i_4 i4​在‘|’前面,说明 i 4 i_4 i4​是未知状态。

因而有如下表达:在结点 i 4 i_4 i4​取值未知的情况下, i 1 , i 2 i_1,i_2 i1​,i2​相互独立;相反,结点 i 4 i_4 i4​给定的条件下, i 1 , i 2 i_1,i_2 i1​,i2​必不独立。 i 4 i_4 i4​结点与 i 3 i_3 i3​结点存在‘相同的性质’~

D \mathcal D D划分(D-Separation)

D \mathcal D D划分是 判断有向图中变量(变量集合)间是否存在条件独立性 的一种方法。

D \mathcal D D划分本质上是上述示例的更普遍、更泛化的方法表示。某样本集合 X \mathcal X X的特征 ( x 1 , x 2 , ⋯   , x p ) (x_1,x_2,\cdots,x_p) (x1​,x2​,⋯,xp​)划分为如下三个变量集合: x A , x B , x C x_{\mathcal A},x_{\mathcal B},x_{\mathcal C} xA​,xB​,xC​ 并且 x A , x B , x C x_{\mathcal A},x_{\mathcal B},x_{\mathcal C} xA​,xB​,xC​集合内元素互不相交。 如何基于上述三个集合描述条件独立性: x A ⊥ x C ∣ x B x_{\mathcal A} \perp x_{\mathcal C} \mid x_{\mathcal B} xA​⊥xC​∣xB​

使用文字方式描述上述条件独立性:当变量集合 x B x_{\mathcal B} xB​中的特征给定的条件下,变量集合 x A x_{\mathcal A} xA​和变量集合 x C x_{\mathcal C} xC​中的特征相互独立。

场景构建:

  • 假设 l a l_a la​是变量集合 x A x_{\mathcal A} xA​中的一个变量/特征;
  • l c l_c lc​是变量集合 x C x_{\mathcal C} xC​中的一个变量/特征;
  • 并且在贝叶斯网络中 l a , l c l_a,l_c la​,lc​之间存在边,并且边上存在一个非 l a , l c l_a,l_c la​,lc​的变量/特征构成的结点,定义其为 l b l_{b} lb​: 个人理解:D划分只是一个泛化的表示,我们只能判定‘若结点之间相互独立 -> '该对结点'必不在同一集合中(即相互独立);但是并不能判定'某对结点'在一个集合中。’

D \mathcal D D划分对三种局部结构的描述表示如下:

  • 如果 l a , l b , l c l_a,l_b,l_c la​,lb​,lc​满足同父结构,有: l b l_b lb​必存在于 x B x_{\mathcal B} xB​集合中。图像表示如下: 同父结构-D划分 只有 l b ∈ x B l_b \in x_{\mathcal B} lb​∈xB​时,在给定集合 x B x_{\mathcal B} xB​中的各特征时, l b l_b lb​才会被给定,从而实现 l a , l c l_a,l_c la​,lc​相互独立: l a ⊥ l c ∣ l b l_a \perp l_c \mid l_b la​⊥lc​∣lb​ 如果对于 ∀ l a ∈ x A , ∀ l c ∈ x C \forall l_a \in x_{\mathcal A},\forall l_c \in x_{\mathcal C} ∀la​∈xA​,∀lc​∈xC​ 满足:

    • l a , l c l_a,l_c la​,lc​之间存在边,并且边上存在一个非 l a , l c l_a,l_c la​,lc​的变量/特征构成的结点 l b l_b lb​,且构成同父结构;
    • l b ∈ x B l_b \in x_{\mathcal B} lb​∈xB​;

    则有: x A ⊥ x C ∣ x B x_{\mathcal A} \perp x_{\mathcal C} \mid x_{\mathcal B} xA​⊥xC​∣xB​

  • 如果 l a , l b , l c l_a,l_b,l_c la​,lb​,lc​满足顺序结构,有: l b l_b lb​必存在于 x B x_{\mathcal B} xB​集合中。图像表示如下: 顺序结构-D划分 如果 ∀ l a ∈ x A , ∀ l c ∈ x C \forall l_a \in x_{\mathcal A},\forall l_c \in x_{\mathcal C} ∀la​∈xA​,∀lc​∈xC​ 满足:

    • l a , l c l_a,l_c la​,lc​之间存在边,并且边上存在一个非 l a , l c l_a,l_c la​,lc​的变量/特征构成的结点 l b l_b lb​,且构成顺序结构;
    • l b ∈ x B l_b \in x_{\mathcal B} lb​∈xB​;

    则有: x A ⊥ x C ∣ x B x_{\mathcal A} \perp x_{\mathcal C} \mid x_{\mathcal B} xA​⊥xC​∣xB​

  • 如果 l a , l b , l c l_a,l_b,l_c la​,lb​,lc​满足 V \mathcal V V型结构,不同于上述两种结构,此时: l b l_b lb​必不存在于 x B x_{\mathcal B} xB​集合中。图像表示如下: V型结构-D划分 如果此时再次给定 x B x_{\mathcal B} xB​集合中的特征时,由于 l b ∉ x B l_b \notin x_{\mathcal B} lb​∈/xB​,从而 l b l_b lb​没有被给定,根据 V \mathcal V V型结构的定义,使得 l a , l c l_a,l_c la​,lc​相互独立。 如果 ∀ l a ∈ x A , ∀ l c ∈ x C \forall l_a \in x_{\mathcal A},\forall l_c \in x_{\mathcal C} ∀la​∈xA​,∀lc​∈xC​ 满足:

    • l a , l c l_a,l_c la​,lc​之间存在边,并且边上存在一个非 l a , l c l_a,l_c la​,lc​的变量/特征构成的结点 l b l_b lb​,且构成 V \mathcal V V型结构;
    • l b ∉ x B l_b \notin x_{\mathcal B} lb​∈/xB​;

    则有: x A ⊥ x C ∣ x B x_{\mathcal A} \perp x_{\mathcal C} \mid x_{\mathcal B} xA​⊥xC​∣xB​

  • 如果 l a , l b , l c l_a,l_b,l_c la​,lb​,lc​满足 V \mathcal V V型结构, l b l_b lb​结点存在一个或多个子节点,有: l b l_b lb​及其子结点均不存在于 x B x_{\mathcal B} xB​集合中。图像表示如下: V型结构(含子节点)-D划分 在上面的推导中证明了 l b l_b lb​的子节点和 l b l_b lb​存在相同性质。如果 ∀ l a ∈ x A , ∀ l c ∈ x C \forall l_a \in x_{\mathcal A},\forall l_c \in x_{\mathcal C} ∀la​∈xA​,∀lc​∈xC​ 满足:

    • l a , l c l_a,l_c la​,lc​之间存在边,并且边上存在一个非 l a , l c l_a,l_c la​,lc​的变量/特征构成的结点 l b l_b lb​,构成 V \mathcal V V型结构,并且 l b l_b lb​存在子节点 l b 1 , l b 2 , ⋯ l_{b_1},l_{b_2},\cdots lb1​​,lb2​​,⋯;
    • l b , l b 1 , l b 2 , ⋯ ∉ x B l_b,l_{b_1},l_{b_2},\cdots \notin x_{\mathcal B} lb​,lb1​​,lb2​​,⋯∈/xB​;

    则有: x A ⊥ x C ∣ x B x_{\mathcal A} \perp x_{\mathcal C} \mid x_{\mathcal B} xA​⊥xC​∣xB​

当然,在真实环境中,大概率不存在只包含一种结构,更多的是上述几种结构的混合形式。每种结构均包含2个条件,按照对应条件进行判定即可。

这种判定规则被称为全局马尔可夫性(Global Markov Property):给定两个变量子集的分离集(Separating Set),则两个变量子集相互独立。 这里是‘贝叶斯网络’对‘全局马尔可夫性’的使用,后续在马尔可夫随机场中会继续介绍。

D \mathcal D D划分与道德图

为了分析贝叶斯网络中各变量间的条件独立性,我们需要使用 D \mathcal D D划分将 有向图转化为无向图:

  • 找出贝叶斯网络中所有的 V \mathcal V V型结构,并将 V \mathcal V V型结构的两个父结点加上一条无向边;
  • 将图中所有的有向边改为无向边;

示例:以西瓜书P157页的有向图进行修改。具体图像表示如下: 贝叶斯网络 观察:上图中一共包含一个 V \mathcal V V型结构,两个同父结构。将 V \mathcal V V型结构的 两个父节点 i 1 , i 2 i_1,i_2 i1​,i2​ 用无向边相连,再将有向边改为无向边,最终结果表示如下: 道德图

上述转化后的图结果被称作道德图(Moral Graph)。名字含义即:子节点的父母(子节点的两个父节点)要建立牢固的关联关系。

道德图能够直观地找到变量间的条件独立性。假设图中红圈部分称为变量集合 Z \mathcal Z Z,在变量集合 Z \mathcal Z Z被观测的情况下,变量 i 1 , i 5 i_1,i_5 i1​,i5​能够被变量集合 Z \mathcal Z Z分开,即 将变量集合 Z \mathcal Z Z去除后, i 1 , i 5 i_1,i_5 i1​,i5​分属两个不同的连通分支: 删除Z后的两个连通分支 称 i 1 , i 5 i_1,i_5 i1​,i5​被变量集合 Z \mathcal Z Z有向分离( D \mathcal D D划分)。由于无向图不存在类似于有向图的各种结构,因此可以直观地找到所有条件独立关系。如 i 1 ⊥ i 5 ∣ i 2 , i 3 ⊥ i 5 ∣ i 2 i_1 \perp i_5 \mid i_2,i_3 \perp i_5 \mid i_2 i1​⊥i5​∣i2​,i3​⊥i5​∣i2​等。 i 3 ⊥ i 5 ∣ i 2 i_3 \perp i_5 \mid i_2 i3​⊥i5​∣i2​关系更加特殊一些。因为它们之间的路径上存在多个变量: i 3 → i 1 → i 2 → i 5 i 3 → i 1 → i 4 → i 2 → i 5 i_3 \to i_1 \to i_2 \to i_5 \\ i_3 \to i_1 \to i_4\to i_2 \to i_5 i3​→i1​→i2​→i5​i3​→i1​→i4​→i2​→i5​

但每个路径都存在被观测的节点。因此在道德图中,整个路径中只要存在节点被观测,对应结点之间必然相互独立。

从关联关系的角度认识道德图

道德图产生的想法是:将有向图转为无向图。产生这种想法的原因在于:相比于有向图,无向图对于关联关系的表达虽然没有有向图精确,但更加泛化。

有向图表示的是 显式的因果关系,谁是给定条件,谁是未知,一目了然: P ( X ) = ∏ i = 1 p P ( x i ∣ x p a ( i ) ) \mathcal P(\mathcal X) = \prod_{i=1}^p \mathcal P(x_i \mid x_{pa(i)}) P(X)=i=1∏p​P(xi​∣xpa(i)​) 无向图表示的是 存在的相关性,相比于有向图,它表示的结果更加宽泛,没有具体的指向关系: x C i x_{\mathcal C_i} xCi​​表示最大团。团的相关描述见‘马尔可夫随机场’传送门 P ( X ) = 1 Z ∏ i = 1 K ψ ( x C i ) \mathcal P(\mathcal X) = \frac{1}{\mathcal Z} \prod_{i=1}^{\mathcal K} \psi(\mathcal x_{\mathcal C_i}) P(X)=Z1​i=1∏K​ψ(xCi​​) 在后续推断过程中,不需要界定其是有向图还是无向图。在信念传播介绍中马尔可夫链结构的红蓝箭头就是这种表示。

此时,回顾贝叶斯网络中的三种结构:同父结构、顺序结构、 V \mathcal V V型结构。如果将三种结构的箭头去掉,只存在一种结构: 无向图结构 并不是说有向图转化为无向图,仅将箭头去掉就可以了,需要观察 箭头去掉之后,对应的无向图是否影响原来结构结点之间的条件独立性。

同父结构与对应道德图

观察同父结构与对应道德图对于联合概率分布 P ( x 1 , x 2 , x 3 ) \mathcal P(x_1,x_2,x_3) P(x1​,x2​,x3​)的表示对比: { P ( x 1 , x 2 , x 3 ) = P ( x 2 ) ⋅ P ( x 1 ∣ x 2 ) ⋅ P ( x 3 ∣ x 2 ) P ( x 1 , x 2 , x 3 ) = 1 Z ψ 12 ( x 1 , x 2 ) ⋅ ψ 23 ( x 2 , x 3 ) \begin{cases} \mathcal P(x_1,x_2,x_3) = \mathcal P(x_2) \cdot \mathcal P(x_1 \mid x_2) \cdot \mathcal P(x_3 \mid x_2) \\ \mathcal P(x_1,x_2,x_3) = \frac{1}{\mathcal Z} \psi_{12}(x_1,x_2) \cdot \psi_{23}(x_2,x_3) \end{cases} {P(x1​,x2​,x3​)=P(x2​)⋅P(x1​∣x2​)⋅P(x3​∣x2​)P(x1​,x2​,x3​)=Z1​ψ12​(x1​,x2​)⋅ψ23​(x2​,x3​)​ 从结点变量的角度,可以对有向图结果进行划分: 并准确地描述了 x 1 , x 3 x_1,x_3 x1​,x3​之间的条件独立性。因为在道德图中, x 1 , x 3 x_1,x_3 x1​,x3​分别属于不同的最大团。 { P ( x 2 ) ⋅ P ( x 1 ∣ x 2 ) → ψ 12 ( x 1 , x 2 ) P ( x 3 ∣ x 2 ) → ψ 23 ( x 2 , x 3 ) \begin{cases} \mathcal P(x_2) \cdot \mathcal P(x_1 \mid x_2) \to \psi_{12}(x_1,x_2)\\ \mathcal P(x_3\mid x_2) \to \psi_{23}(x_2,x_3) \end{cases} {P(x2​)⋅P(x1​∣x2​)→ψ12​(x1​,x2​)P(x3​∣x2​)→ψ23​(x2​,x3​)​

顺序结构与对应道德图

观察顺序结构与对应盗的图对于联合概率分布 P ( x 1 , x 2 , x 3 ) \mathcal P(x_1,x_2,x_3) P(x1​,x2​,x3​)的表示对比: { P ( x 1 , x 2 , x 3 ) = P ( x 1 ) ⋅ P ( x 2 ∣ x 1 ) ⋅ P ( x 3 ∣ x 2 ) P ( x 1 , x 2 , x 3 ) = 1 Z ψ 12 ( x 1 , x 2 ) ⋅ ψ 23 ( x 2 , x 3 ) \begin{cases} \mathcal P(x_1,x_2,x_3) = \mathcal P(x_1) \cdot \mathcal P(x_2 \mid x_1) \cdot \mathcal P(x_3 \mid x_2) \\ \mathcal P(x_1,x_2,x_3) = \frac{1}{\mathcal Z} \psi_{12}(x_1,x_2) \cdot \psi_{23}(x_2,x_3) \end{cases} {P(x1​,x2​,x3​)=P(x1​)⋅P(x2​∣x1​)⋅P(x3​∣x2​)P(x1​,x2​,x3​)=Z1​ψ12​(x1​,x2​)⋅ψ23​(x2​,x3​)​ 在划分的过程中,从结点变量的角度,可以对有向图结果进行划分: ‘顺序结构’与‘同父结构’的条件独立性相同,因此,也可以将变量分别正确的划分进两个最大团中。 { P ( x 1 ) ⋅ P ( x 2 ∣ x 1 ) → ψ 12 ( x 1 , x 2 ) P ( x 3 ∣ x 2 ) → ψ 23 ( x 2 , x 3 ) \begin{cases} \mathcal P(x_1) \cdot \mathcal P(x_2 \mid x_1) \to \psi_{12}(x_1,x_2) \\ \mathcal P(x_3\mid x_2) \to \psi_{23}(x_2,x_3) \end{cases} {P(x1​)⋅P(x2​∣x1​)→ψ12​(x1​,x2​)P(x3​∣x2​)→ψ23​(x2​,x3​)​

V \mathcal V V型结构与对应道德图

观察 V \mathcal V V型结构与对应道德图对于联合概率分布 P ( x 1 , x 2 , x 3 ) \mathcal P(x_1,x_2,x_3) P(x1​,x2​,x3​)的表示对比: { P ( x 1 , x 2 , x 3 ) = P ( x 1 ) ⋅ P ( x 3 ) ⋅ P ( x 1 , x 3 ∣ x 2 ) P ( x 1 , x 2 , x 3 ) = 1 Z ψ 12 ( x 1 , x 2 ) ⋅ ψ 23 ( x 2 , x 3 ) \begin{cases} \mathcal P(x_1,x_2,x_3) = \mathcal P(x_1) \cdot \mathcal P(x_3) \cdot \mathcal P(x_1,x_3 \mid x_2)\\ \mathcal P(x_1,x_2,x_3) = \frac{1}{\mathcal Z} \psi_{12}(x_1,x_2) \cdot \psi_{23}(x_2,x_3) \end{cases} {P(x1​,x2​,x3​)=P(x1​)⋅P(x3​)⋅P(x1​,x3​∣x2​)P(x1​,x2​,x3​)=Z1​ψ12​(x1​,x2​)⋅ψ23​(x2​,x3​)​

注意: P ( x 1 , x 3 ∣ x 2 ) \mathcal P(x_1,x_3 \mid x_2) P(x1​,x3​∣x2​)一项中就包含了三个变量,这意味着它对应的无向图结果中必须包含三个变量结点的团结构。 这也暗含‘V型结构’的描述:给定 x 2 x_2 x2​条件下, x 1 , x 3 x_1,x_3 x1​,x3​必不独立。

但实际上对应无向图中最多只包含两个结点的团,这说明:仅仅通过去掉有向图的箭头,无法表示 V \mathcal V V型结构的条件独立性关系。

如何对有向图进行改进,使其能够表示 V \mathcal V V型结构的条件独立性,即 在两个父结点之间连接一条边,使三个变量结点组成一个极大团: 请添加图片描述 观察改进后的道德图与 V \mathcal V V型结构: 最大团发生了变化。 P ( x 1 , x 2 , x 3 ) = 1 Z ψ 123 ( x 1 , x 2 , x 3 ) ψ 123 ( x 1 , x 2 , x 3 ) → P ( x 1 ) ⋅ P ( x 3 ) ⋅ P ( x 1 , x 3 ∣ x 2 ) \mathcal P(x_1,x_2,x_3) = \frac{1}{\mathcal Z} \psi_{123}(x_1,x_2,x_3) \\ \psi_{123}(x_1,x_2,x_3) \to \mathcal P(x_1) \cdot \mathcal P(x_3) \cdot \mathcal P(x_1,x_3 \mid x_2) P(x1​,x2​,x3​)=Z1​ψ123​(x1​,x2​,x3​)ψ123​(x1​,x2​,x3​)→P(x1​)⋅P(x3​)⋅P(x1​,x3​∣x2​)

因此,将有向图转化为无向图时,仅对 V \mathcal V V型结构进行修改。

相关参考: 机器学习 - 周志华著 机器学习-概率图模型3-贝叶斯网络-Representation-D-Separation 机器学习-概率图模型-概念补充-道德图(Moral Graph)

关注
打赏
1664446683
查看更多评论
立即登录/注册

微信扫码登录

0.0546s