- 引言
- 背景介绍
- 联合概率分布的求解困境
- 条件独立性假设
- 概率图的分类
- 总结
从本节开始将介绍概率图模型。
背景介绍概率图模型(Probabilistic Graphical Model)并不是指具体的某一种模型,而是一种抽象的模型思想。 这里的图(Graph)和数据结构中的图结构基本相同,只是概率图中的图 是描述概率模型内各数据特征之间关系的一种工具。 换句话说,我们将数据结构中图的结点和边之间的组合赋予概率的意义。将概率模型的一些特点用图的形式表现出来。
这里的概率自然指的是概率模型(Probabilistic Model)。在机器学习中,它提供了一种描述框架,将现实问题(学习任务)归结于基于概率的抽象(计算目标变量,如标签变量对应的概率分布结果)。
而在真实环境中,我们面临的变量可能是复杂的,具体表现在我们面临的数据可能包含高维特征。因此,我们在对随机变量进行假设时,通常将其设定为高维随机变量: X = ( x ( 1 ) , x ( 2 ) , ⋯ , x ( N ) ) T = ( x 1 ( 1 ) , x 2 ( 1 ) , ⋯ , x p ( 1 ) x 1 ( 2 ) , x 2 ( 2 ) , ⋯ , x p ( 2 ) ⋮ x 1 ( N ) , x 2 ( N ) , ⋯ , x p ( N ) ) N × p → x ( i ) ∈ R p , i = 1 , 2 , ⋯ , N \mathcal X = \left(x^{(1)},x^{(2)},\cdots,x^{(N)}\right)^T = \begin{pmatrix} x_1^{(1)},x_2^{(1)},\cdots,x_p^{(1)} \\ x_1^{(2)},x_2^{(2)},\cdots,x_p^{(2)} \\ \vdots \\ x_1^{(N)},x_2^{(N)},\cdots,x_p^{(N)} \\ \end{pmatrix}_{N\times p} \to x^{(i)} \in \mathbb R^p,i=1,2,\cdots,N X=(x(1),x(2),⋯,x(N))T=⎝ ⎛x1(1),x2(1),⋯,xp(1)x1(2),x2(2),⋯,xp(2)⋮x1(N),x2(N),⋯,xp(N)⎠ ⎞N×p→x(i)∈Rp,i=1,2,⋯,N
在最开始的极大似然估计与最大后验概率估计中介绍的,我们可以将数据集合
X
\mathcal X
X看做成概率模型
P
(
X
)
\mathcal P(\mathcal X)
P(X)中产生出的
N
N
N个样本所组成的集合。 这里将
P
(
X
;
θ
)
P(\mathcal X;\theta)
P(X;θ)中的
θ
\theta
θ省略掉,因为并不是使用‘频率学派’的角度考虑该问题。
由于数据集合
X
\mathcal X
X共包含
p
p
p个维度,因此概率模型
P
(
X
)
\mathcal P(\mathcal X)
P(X)的概率密度函数表示如下:
P
(
x
1
,
x
2
,
⋯
,
x
p
)
\mathcal P(x_1,x_2,\cdots,x_p)
P(x1,x2,⋯,xp) 上述式子我们可以将其看做样本各维度的联合概率分布。在已知概率密度函数的条件下,我们可以求解如下信息:
- 关于样本特征的边缘概率分布: P ( x i ) i ∈ { 1 , 2 , ⋯ , p } \mathcal P(x_i) \quad i\in \{1,2,\cdots,p\} P(xi)i∈{1,2,⋯,p}
- 关于样本特征的条件概率分布: P ( x j ∣ x i ) i , j ∈ { 1 , 2 , ⋯ , p } ; i ≠ j \mathcal P(x_j \mid x_i) \quad i,j \in \{1,2,\cdots,p\};i \neq j P(xj∣xi)i,j∈{1,2,⋯,p};i=j
在概率计算的过程中,包含几个重要法则:
- 概率的加法运算:
加法运算本质上就是‘积分运算’,针对随机变量的离散、连续性有不同的表示形式。下面以离散型随机变量为例。
P ( x i ) = ∑ x 1 , ⋯ , x i − 1 , x i + 1 , ⋯ , x p P ( x 1 , x 2 , ⋯ , x p ) \mathcal P(x_i) = \sum_{x_1,\cdots,x_{i-1},x_{i+1},\cdots,x_p} \mathcal P(x_1,x_2,\cdots,x_p) P(xi)=x1,⋯,xi−1,xi+1,⋯,xp∑P(x1,x2,⋯,xp) - 概率的乘法运算:
条件概率公式~
P ( x 1 , … , x p ) = P ( x 1 ∣ x 2 , ⋯ , x p ) ⋅ P ( x 2 , ⋯ , x p ) \mathcal P(x_1,\dots,x_p) = \mathcal P(x_1 \mid x_2,\cdots,x_p) \cdot \mathcal P(x_2,\cdots,x_p) P(x1,…,xp)=P(x1∣x2,⋯,xp)⋅P(x2,⋯,xp) - 链式法则(Chain Rule): P ( x 1 , ⋯ , x p ) = P ( x 1 ∣ x 2 , ⋯ , x p ) ⋅ P ( x 2 , ⋯ , x p ) = P ( x 1 ∣ x 2 , ⋯ , x p ) ⋅ P ( x 2 ∣ x 3 , ⋯ , x p ) ⋅ P ( x 3 , ⋯ , x p ) = ⋯ = P ( x 1 ) ⋅ ∏ 2 p p ( x i ∣ x 1 , ⋯ , x i − 1 ) \begin{aligned} \mathcal P(x_1,\cdots,x_p) & = \mathcal P(x_1 \mid x_2,\cdots,x_p) \cdot \mathcal P(x_2 ,\cdots,x_p) \\ & = \mathcal P(x_1 \mid x_2,\cdots,x_p) \cdot \mathcal P(x_2 \mid x_3 ,\cdots, x_p) \cdot \mathcal P(x_3, \cdots, x_p) \\ & = \cdots \\ & = \mathcal P(x_1) \cdot \prod_2^{p} p(x_i \mid x_1,\cdots,x_{i-1}) \end{aligned} P(x1,⋯,xp)=P(x1∣x2,⋯,xp)⋅P(x2,⋯,xp)=P(x1∣x2,⋯,xp)⋅P(x2∣x3,⋯,xp)⋅P(x3,⋯,xp)=⋯=P(x1)⋅2∏pp(xi∣x1,⋯,xi−1)
- 贝叶斯法则(Bayes’ Rule):
上述式子有点长,这里使用2维特征
x 1 , x 2 x_1,x_2 x1,x2进行表示。
P ( x 2 ∣ x 1 ) = P ( x 1 , x 2 ) P ( x 1 ) = P ( x 1 , x 2 ) ∑ x 2 P ( x 1 , x 2 ) = P ( x 2 ) ⋅ P ( x 1 ∣ x 2 ) ∑ x 2 [ P ( x 2 ) ⋅ P ( x 1 ∣ x 2 ) ] \begin{aligned} \mathcal P(x_2 \mid x_1) & = \frac{\mathcal P(x_1,x_2)}{\mathcal P(x_1)} \\ & = \frac{\mathcal P(x_1,x_2)}{\sum_{x_2} \mathcal P(x_1,x_2)} \\ & = \frac{\mathcal P(x_2) \cdot \mathcal P(x_1 \mid x_2)}{\sum_{x_2} \left[\mathcal P(x_2) \cdot \mathcal P(x_1 \mid x_2)\right]} \end{aligned} P(x2∣x1)=P(x1)P(x1,x2)=∑x2P(x1,x2)P(x1,x2)=∑x2[P(x2)⋅P(x1∣x2)]P(x2)⋅P(x1∣x2)
关于联合概率分布 P ( x 1 , ⋯ , x p ) \mathcal P(x_1,\cdots,x_p) P(x1,⋯,xp)的计算困境: 当维度过高的情况下, P ( x 1 , ⋯ , x p ) \mathcal P(x_1,\cdots,x_p) P(x1,⋯,xp)的 计算量极高,因为在上述公式中,我们要考虑 任意两个特征之间都可能存在关联关系。
针对上述问题,衍生出如下几种简化方式:
-
简化方式1:假设各维度之间相互独立。即: P ( x 1 , x 2 , ⋯ , x p ) = ∏ i = 1 p P ( x i ) \mathcal P(x_1,x_2,\cdots,x_p) = \prod_{i=1}^p \mathcal P(x_i) P(x1,x2,⋯,xp)=i=1∏pP(xi) 与其对应的概率图模型是朴素贝叶斯模型(Naive Bayes Model)。之前介绍过的朴素贝叶斯分类器(Naive Bayes Classifier)就是该模型的表达。 P ( X ∣ Y ) = ∏ i = 1 p P ( x i ∣ Y ) \mathcal P(\mathcal X \mid \mathcal Y) = \prod_{i=1}^p \mathcal P(x_i \mid \mathcal Y) P(X∣Y)=i=1∏pP(xi∣Y) 但与之对应的是朴素贝叶斯分类器针对样本特征极强的规则限制性。在真实环境中,样本基于高维特征,并且各特征之间相互独立的情况是基本不存在的。 因此,基于上述假设,我们尝试降低对于规则的限制。
-
简化方法2:马尔可夫性质(Markov Property),即隐马尔可夫模型中介绍的齐次马尔可夫假设: 当一个随机过程在给定现在状态以及所有过去状态的情况下,其未来条件概率分布仅依赖于当前状态。使用数学符号表示如下:
这里以‘一阶齐次马尔可夫假设为例’。
x i + 1 ⊥ x j ∣ x i j < i x_{i+1} \perp x_j \mid x_i \quad j < i xi+1⊥xj∣xij关注打赏
最近更新
- 深拷贝和浅拷贝的区别(重点)
- 【Vue】走进Vue框架世界
- 【云服务器】项目部署—搭建网站—vue电商后台管理系统
- 【React介绍】 一文带你深入React
- 【React】React组件实例的三大属性之state,props,refs(你学废了吗)
- 【脚手架VueCLI】从零开始,创建一个VUE项目
- 【React】深入理解React组件生命周期----图文详解(含代码)
- 【React】DOM的Diffing算法是什么?以及DOM中key的作用----经典面试题
- 【React】1_使用React脚手架创建项目步骤--------详解(含项目结构说明)
- 【React】2_如何使用react脚手架写一个简单的页面?