机器学习笔记之变分推断(一)基本介绍

机器学习笔记之变分推断——基本介绍

引言
- 背景介绍
- - 频率学派角度认识问题
  - 贝叶斯学派角度认识问题

引言

从本节开始将从推断入手介绍变分推断。

背景介绍

提示：本节的背景介绍与机器学习笔记之隐马尔可夫模型(一)概率模型背景的阶段性介绍的部分有很多重复部分，请对比食用，谢谢。

频率学派角度认识问题

从频率学派的角度观察，其针对的核心问题是优化问题。

示例1：线性回归(Linear Regression,LR)，是一种针对数据拟合的统计分析方法。
- 模型表示： f ( W , b ) = W T X + b f(\mathcal W,b) = \mathcal W^{T}\mathcal X + b f(W,b)=WTX+b 其中， X \mathcal X X表示样本集合， W , b \mathcal W,b W,b表示模型参数。最终目的是通过已知数据 X \mathcal X X，将模型参数 W , b \mathcal W,b W,b估计出来。
- 基于上述思想，提出一个损失函数(Loss Function)：每个样本点对拟合直线的误差之和。 L ( W , b ) = ∑ i = 1 N ∣ ∣ W T x ( i ) + b − y ( i ) ∣ ∣ 2 ( x ( i ) , y ( i ) ) ∈ D \mathcal L(\mathcal W,b) = \sum_{i=1}^{N} ||\mathcal W^{T}x^{(i)} + b - y^{(i)}||^2 \quad (x^{(i)},y^{(i)}) \in \mathcal D L(W,b)=i=1∑N∣∣WTx(i)+b−y(i)∣∣2(x(i),y(i))∈D 其中， D \mathcal D D表示数据集合， x ( i ) ( i = 1 , 2 , ⋯ , N ) x^{(i)}(i=1,2,\cdots,N) x(i)(i=1,2,⋯,N)表示数据集合中任意一个样本信息， N N N表示样本数量，是一个 p p p维向量； y ( i ) y^{(i)} y(i)表示样本信息 x ( i ) x^{(i)} x(i)对应的标签信息，是一个标量： D = { ( x ( i ) , y ( i ) ) } i = 1 N x ( i ) = ( x 1 ( i ) , x 2 ( i ) , ⋯ , x p ( i ) ) T \mathcal D = \{(x^{(i)},y^{(i)})\}_{i=1}^N \\ x^{(i)} = (x_1^{(i)},x_2^{(i)},\cdots,x_p^{(i)})^{T} D={(x(i),y(i))}i=1Nx(i)=(x1(i),x2(i),⋯,xp(i))T
- 针对最优模型参数 W ^ , b ^ \hat {\mathcal W},\hat b W^,b^的求解问题，求解思想是：最小化样本点拟合直线的误差结果。 W ^ = arg ⁡ max ⁡ W L ( W , b ) b ^ = arg ⁡ max ⁡ b L ( W , b ) \hat {\mathcal W} = \mathop{\arg\max}\limits_{\mathcal W} \mathcal L(\mathcal W,b) \\ \hat b = \mathop{\arg\max}\limits_{b} \mathcal L(\mathcal W,b) W^=WargmaxL(W,b)b^=bargmaxL(W,b) 关于求解方式，分为解析解和数值解两种：直接将 L ( W , b ) \mathcal L(\mathcal W,b) L(W,b)对 W \mathcal W W求偏导，求得 W \mathcal W W的解析解如下： ∂ L ( W , b ) ∂ W ≜ 0 → W ^ = ( X T X ) − 1 X T Y X = ( x ( 1 ) , ⋯ , x ( N ) ) N × p T Y = ( y ( i ) , ⋯ , y ( N ) ) N × 1 T \frac{\partial \mathcal L(\mathcal W,b)}{\partial \mathcal W} \triangleq 0 \to \hat {\mathcal W} = \left(\mathcal X^{T}\mathcal X\right)^{-1}\mathcal X^{T}\mathcal Y \quad \mathcal X = \left(x^{(1)},\cdots,x^{(N)}\right)^{T}_{N \times p}\mathcal Y = \left(y^{(i)},\cdots,y^{(N)}\right)^{T}_{N \times 1} ∂W∂L(W,b)≜0→W^=(XTX)−1XTYX=(x(1),⋯,x(N))N×pTY=(y(i),⋯,y(N))N×1T 数值解一般使用方法如梯度下降(Gradient Descent,GD)方法、随机梯度下降(Stochastic Gradient Descent,SGD)方法进行求解。
示例2：支持向量机(Support Vector Machine,SVM)，它是一种基于线性分类的硬分类代表方法。
- 模型表示： f ( W , b ) = s i g n ( W T X + b ) f(\mathcal W,b) = sign(\mathcal W^{T}\mathcal X + b) f(W,b)=sign(WTX+b)
- 支持向量机的损失函数是一个包含 N N N个约束的优化问题，并且是凸优化问题： { min ⁡ 1 2 W T W s . t . y ( i ) ( W T x ( i ) + b ) ≥ 1 ( i = 1 , 2 , ⋯ , N ) \begin{cases} \mathop{\min} \frac{1}{2} \mathcal W^{T}\mathcal W \\ s.t. \quad y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right) \geq 1 \quad (i=1,2,\cdots,N) \end{cases} {min21WTWs.t.y(i)(WTx(i)+b)≥1(i=1,2,⋯,N)
- 对上述损失函数求解：
  - 由于上述问题是凸二次规划问题，可以直接使用 Q P \mathcal Q\mathcal P QP方法进行求解；
  - 使用拉格朗日乘数法，将上述问题转化为对偶问题，并基于对偶问题进行求解。
示例3：EM算法，该算法基于极大似然估计，通过迭代求解的方式对含隐变量的模型参数进行优化： θ ^ = arg ⁡ max ⁡ θ log ⁡ P ( X ∣ θ ) \hat \theta = \mathop{\arg\max}\limits_{\theta} \log P(\mathcal X \mid \theta) θ^=θargmaxlogP(X∣θ) 其迭代公式表示如下： θ ( t + 1 ) = arg ⁡ max ⁡ θ ∫ Z P ( X , Z ∣ θ ) ⋅ P ( Z ∣ X , θ ( t ) ) d Z \theta^{(t+1)} = \mathop{\arg\max}\limits_{\theta}\int_{\mathcal Z} P(\mathcal X,\mathcal Z \mid \theta)\cdot P(\mathcal Z \mid \mathcal X,\theta^{(t)})d\mathcal Z θ(t+1)=θargmax∫ZP(X,Z∣θ)⋅P(Z∣X,θ(t))dZ

经过整理，优化问题的核心是求出概率模型的具体参数结果 θ \theta θ，并通过 θ \theta θ表示概率模型 P ( X ∣ θ ) P(\mathcal X \mid \theta) P(X∣θ)。 这个‘优化问题’的重点在于‘求解’过程，而‘策略’可以理解成优化过程的一种载体。

贝叶斯学派角度认识问题

从贝叶斯的角度观察，其针对的核心问题是积分问题。已知样本集合 X \mathcal X X，通过贝叶斯定理求解 X \mathcal X X条件下，模型参数 θ \theta θ的后验概率分布 P ( θ ∣ X ) P(\theta \mid \mathcal X) P(θ∣X)： P ( θ ∣ X ) = P ( X ∣ θ ) ⋅ P ( θ ) P ( X ) P(\theta \mid \mathcal X) = \frac{P(\mathcal X \mid \theta) \cdot P(\theta)}{P(\mathcal X)} P(θ∣X)=P(X)P(X∣θ)⋅P(θ)

P ( θ ) P(\theta) P(θ)为关于模型参数 θ \theta θ的先验概率分布；
P ( X ∣ θ ) P(\mathcal X \mid \theta) P(X∣θ)为数据集合 X \mathcal X X的似然；
P ( θ ∣ X ) P(\theta \mid \mathcal X) P(θ∣X)为模型参数 θ \theta θ的后验概率分布；
P ( X ) P(\mathcal X) P(X)为证据(Evidence)，即数据集合 X \mathcal X X的边缘概率分布。可写成如下形式： ∫ θ P ( X , θ ) d θ = ∫ θ P ( X ∣ θ ) ⋅ P ( θ ) d θ \int_{\theta}P(\mathcal X,\theta)d\theta = \int_{\theta}P(\mathcal X \mid \theta)\cdot P(\theta)d\theta ∫θP(X,θ)dθ=∫θP(X∣θ)⋅P(θ)dθ

贝叶斯推断(Inference)：特指在贝叶斯框架内，将 θ \theta θ的后验概率分布 P ( θ ∣ X ) P(\theta \mid \mathcal X) P(θ∣X)求解出来。贝叶斯决策(Decision)：已知数据集合 X \mathcal X X中包含 N N N个样本，现存在一个集合 X \mathcal X X外的样本 x ^ \hat x x^，求解集合 X \mathcal X X条件下， x ^ \hat x x^的后验概率 P ( x ^ ∣ X ) P(\hat x\mid \mathcal X) P(x^∣X)。

至此，我们通过模型参数 θ \theta θ，将集合 X \mathcal X X与新样本 x ^ \hat x x^关联起来： 概率密度积分方法~ P ( x ^ ∣ X ) = ∫ θ P ( x ^ , θ ∣ X ) d θ = ∫ θ P ( x ^ ∣ θ ) ⋅ P ( θ ∣ X ) d θ \begin{aligned} P(\hat x \mid \mathcal X) & = \int_{\theta} P(\hat x,\theta \mid \mathcal X)d\theta \\ & = \int_{\theta} P(\hat x \mid \theta) \cdot P(\theta \mid \mathcal X) d\theta \end{aligned} P(x^∣X)=∫θP(x^,θ∣X)dθ=∫θP(x^∣θ)⋅P(θ∣X)dθ 至此，基于贝叶斯框架对新样本 x ^ \hat x x^ 的预测过程：

通过贝叶斯推断求解参数 θ \theta θ的后验概率分布 P ( θ ∣ X ) P(\theta \mid \mathcal X) P(θ∣X)；
基于 P ( θ ∣ X ) P(\theta \mid \mathcal X) P(θ∣X)，通过贝叶斯决策求解 x ^ \hat x x^的后验概率分布 P ( x ^ ∣ X ) P(\hat x \mid \mathcal X) P(x^∣X)。

观察上式，可以直接将 P ( x ^ ∣ X ) P(\hat x \mid \mathcal X) P(x^∣X)看做 P ( x ^ ∣ θ ) P(\hat x \mid \theta) P(x^∣θ)关于 P ( θ ∣ X ) P(\theta \mid \mathcal X) P(θ∣X)的期望形式： P ( x ^ ∣ X ) = E θ ∣ X [ P ( x ^ ∣ θ ) ] P(\hat x \mid \mathcal X) = \mathbb E_{\theta \mid \mathcal X} \left[P(\hat x \mid \theta)\right] P(x^∣X)=Eθ∣X[P(x^∣θ)] 因此，贝叶斯角度实现新样本 x ^ \hat x x^的预测过程，其核心在于：如何求解参数的后验概率分布 P ( θ ∣ X ) P(\theta \mid \mathcal X) P(θ∣X)。因此，求解后验概率分布 P ( θ ∣ X ) P(\theta \mid \mathcal X) P(θ∣X)这个行为被称为推断(Inference)。 和频率角度看待问题的核心区别：

频率角度求解的是‘模型参数’ θ \theta θ的‘具体结果’或‘迭代产生的近似结果’;(仅关于参数本身)
贝叶斯角度求解的是‘一个概率分布’，关于参数 θ \theta θ的后验概率分布 P ( θ ∣ X ) P(\theta \mid \mathcal X) P(θ∣X)

推断主要分为如下几种类型：

精确推断(Exact Inference)： P ( θ ∣ X ) P(\theta \mid \mathcal X) P(θ∣X)可以直接求解。常见的精确推断有:
- 变量消去法
- 信念传播(Belief Propagation)
近似推断(Approximate Inference)：使用近似推断的核心原因是参数空间维度、隐变量空间维度 K \mathcal K K过高，使得对 P ( X ) P(\mathcal X) P(X)的求解过程中出现积分难问题： P ( X ) = ∫ Z P ( X ∣ Z ) ⋅ P ( Z ) d Z = ∫ z 1 ⋯ ∫ z K P ( X ∣ Z ) ⋅ P ( Z ) d z 1 , ⋯ , z K \begin{aligned} P(\mathcal X) & = \int_{\mathcal Z} P(\mathcal X \mid \mathcal Z) \cdot P(\mathcal Z)d\mathcal Z \\ & = \int_{z_1} \cdots \int_{z_{\mathcal K}} P(\mathcal X \mid \mathcal Z) \cdot P(\mathcal Z) dz_1,\cdots,z_{\mathcal K} \end{aligned} P(X)=∫ZP(X∣Z)⋅P(Z)dZ=∫z1⋯∫zKP(X∣Z)⋅P(Z)dz1,⋯,zK 从而没有办法直接求解后验 P ( θ ∣ X ) P(\theta \mid \mathcal X) P(θ∣X)。因此，只能通过某些方法近似求解后验概率分布 P ( θ ∣ X ) P(\theta \mid \mathcal X) P(θ∣X)。近似推断可以细分为如下两类：
- 确定性近似。代表方法：变分推断；
- 随机近似。代表方法：马尔可夫链蒙特卡洛方法(Markov Chain Monte Carlo,MCMC)

下一节将介绍变分推断的公式推导。

相关参考：机器学习-变分推断1（背景介绍）

机器学习笔记之变分推断(一)基本介绍

[ 申请 ]友情链接：