您当前的位置: 首页 >  机器学习

静静的喝酒

暂无认证

  • 3浏览

    0关注

    99博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

机器学习笔记之变分推断(一)基本介绍

静静的喝酒 发布时间:2022-09-14 21:59:22 ,浏览量:3

机器学习笔记之变分推断——基本介绍
  • 引言
    • 背景介绍
      • 频率学派角度认识问题
      • 贝叶斯学派角度认识问题

引言

从本节开始将从推断入手介绍变分推断。

背景介绍

提示:本节的背景介绍与机器学习笔记之隐马尔可夫模型(一)概率模型背景的阶段性介绍的部分有很多重复部分,请对比食用,谢谢。

频率学派角度认识问题

从频率学派的角度观察,其针对的核心问题是优化问题。

  • 示例1:线性回归(Linear Regression,LR),是一种针对数据拟合的统计分析方法。

    • 模型表示: f ( W , b ) = W T X + b f(\mathcal W,b) = \mathcal W^{T}\mathcal X + b f(W,b)=WTX+b 其中, X \mathcal X X表示样本集合, W , b \mathcal W,b W,b表示模型参数。最终目的是 通过已知数据 X \mathcal X X,将模型参数 W , b \mathcal W,b W,b估计出来。

    • 基于上述思想,提出一个损失函数(Loss Function):每个样本点对拟合直线的误差之和。 L ( W , b ) = ∑ i = 1 N ∣ ∣ W T x ( i ) + b − y ( i ) ∣ ∣ 2 ( x ( i ) , y ( i ) ) ∈ D \mathcal L(\mathcal W,b) = \sum_{i=1}^{N} ||\mathcal W^{T}x^{(i)} + b - y^{(i)}||^2 \quad (x^{(i)},y^{(i)}) \in \mathcal D L(W,b)=i=1∑N​∣∣WTx(i)+b−y(i)∣∣2(x(i),y(i))∈D 其中, D \mathcal D D表示数据集合, x ( i ) ( i = 1 , 2 , ⋯   , N ) x^{(i)}(i=1,2,\cdots,N) x(i)(i=1,2,⋯,N)表示数据集合中任意一个样本信息, N N N表示样本数量,是一个 p p p维向量; y ( i ) y^{(i)} y(i)表示样本信息 x ( i ) x^{(i)} x(i)对应的标签信息,是一个标量: D = { ( x ( i ) , y ( i ) ) } i = 1 N x ( i ) = ( x 1 ( i ) , x 2 ( i ) , ⋯   , x p ( i ) ) T \mathcal D = \{(x^{(i)},y^{(i)})\}_{i=1}^N \\ x^{(i)} = (x_1^{(i)},x_2^{(i)},\cdots,x_p^{(i)})^{T} D={(x(i),y(i))}i=1N​x(i)=(x1(i)​,x2(i)​,⋯,xp(i)​)T

    • 针对最优模型参数 W ^ , b ^ \hat {\mathcal W},\hat b W^,b^的求解问题,求解思想是:最小化样本点拟合直线的误差结果。 W ^ = arg ⁡ max ⁡ W L ( W , b ) b ^ = arg ⁡ max ⁡ b L ( W , b ) \hat {\mathcal W} = \mathop{\arg\max}\limits_{\mathcal W} \mathcal L(\mathcal W,b) \\ \hat b = \mathop{\arg\max}\limits_{b} \mathcal L(\mathcal W,b) W^=Wargmax​L(W,b)b^=bargmax​L(W,b) 关于求解方式,分为解析解和数值解两种: 直接将 L ( W , b ) \mathcal L(\mathcal W,b) L(W,b)对 W \mathcal W W求偏导,求得 W \mathcal W W的解析解如下: ∂ L ( W , b ) ∂ W ≜ 0 → W ^ = ( X T X ) − 1 X T Y X = ( x ( 1 ) , ⋯   , x ( N ) ) N × p T Y = ( y ( i ) , ⋯   , y ( N ) ) N × 1 T \frac{\partial \mathcal L(\mathcal W,b)}{\partial \mathcal W} \triangleq 0 \to \hat {\mathcal W} = \left(\mathcal X^{T}\mathcal X\right)^{-1}\mathcal X^{T}\mathcal Y \quad \mathcal X = \left(x^{(1)},\cdots,x^{(N)}\right)^{T}_{N \times p}\mathcal Y = \left(y^{(i)},\cdots,y^{(N)}\right)^{T}_{N \times 1} ∂W∂L(W,b)​≜0→W^=(XTX)−1XTYX=(x(1),⋯,x(N))N×pT​Y=(y(i),⋯,y(N))N×1T​ 数值解一般使用方法如 梯度下降(Gradient Descent,GD)方法、随机梯度下降(Stochastic Gradient Descent,SGD)方法进行求解。

  • 示例2:支持向量机(Support Vector Machine,SVM),它是一种基于线性分类的 硬分类代表方法。

    • 模型表示: f ( W , b ) = s i g n ( W T X + b ) f(\mathcal W,b) = sign(\mathcal W^{T}\mathcal X + b) f(W,b)=sign(WTX+b)
    • 支持向量机的损失函数是一个 包含 N N N个约束的优化问题,并且是凸优化问题: { min ⁡ 1 2 W T W s . t . y ( i ) ( W T x ( i ) + b ) ≥ 1 ( i = 1 , 2 , ⋯   , N ) \begin{cases} \mathop{\min} \frac{1}{2} \mathcal W^{T}\mathcal W \\ s.t. \quad y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right) \geq 1 \quad (i=1,2,\cdots,N) \end{cases} {min21​WTWs.t.y(i)(WTx(i)+b)≥1(i=1,2,⋯,N)​
    • 对上述损失函数求解:
      • 由于上述问题是凸二次规划问题,可以直接使用 Q P \mathcal Q\mathcal P QP方法进行求解;
      • 使用拉格朗日乘数法,将上述问题转化为对偶问题,并基于对偶问题进行求解。
  • 示例3:EM算法,该算法基于极大似然估计,通过迭代求解的方式对含隐变量的模型参数进行优化: θ ^ = arg ⁡ max ⁡ θ log ⁡ P ( X ∣ θ ) \hat \theta = \mathop{\arg\max}\limits_{\theta} \log P(\mathcal X \mid \theta) θ^=θargmax​logP(X∣θ) 其迭代公式表示如下: θ ( t + 1 ) = arg ⁡ max ⁡ θ ∫ Z P ( X , Z ∣ θ ) ⋅ P ( Z ∣ X , θ ( t ) ) d Z \theta^{(t+1)} = \mathop{\arg\max}\limits_{\theta}\int_{\mathcal Z} P(\mathcal X,\mathcal Z \mid \theta)\cdot P(\mathcal Z \mid \mathcal X,\theta^{(t)})d\mathcal Z θ(t+1)=θargmax​∫Z​P(X,Z∣θ)⋅P(Z∣X,θ(t))dZ

经过整理,优化问题 的核心是求出概率模型的具体参数结果 θ \theta θ,并通过 θ \theta θ表示概率模型 P ( X ∣ θ ) P(\mathcal X \mid \theta) P(X∣θ)。 这个‘优化问题’的重点在于‘求解’过程,而‘策略’可以理解成优化过程的一种载体。

贝叶斯学派角度认识问题

从贝叶斯的角度观察,其针对的核心问题是积分问题。 已知样本集合 X \mathcal X X,通过贝叶斯定理求解 X \mathcal X X条件下,模型参数 θ \theta θ的后验概率分布 P ( θ ∣ X ) P(\theta \mid \mathcal X) P(θ∣X): P ( θ ∣ X ) = P ( X ∣ θ ) ⋅ P ( θ ) P ( X ) P(\theta \mid \mathcal X) = \frac{P(\mathcal X \mid \theta) \cdot P(\theta)}{P(\mathcal X)} P(θ∣X)=P(X)P(X∣θ)⋅P(θ)​

  • P ( θ ) P(\theta) P(θ)为关于模型参数 θ \theta θ的先验概率分布;
  • P ( X ∣ θ ) P(\mathcal X \mid \theta) P(X∣θ)为数据集合 X \mathcal X X的似然;
  • P ( θ ∣ X ) P(\theta \mid \mathcal X) P(θ∣X)为模型参数 θ \theta θ的后验概率分布;
  • P ( X ) P(\mathcal X) P(X)为证据(Evidence),即数据集合 X \mathcal X X的边缘概率分布。可写成如下形式: ∫ θ P ( X , θ ) d θ = ∫ θ P ( X ∣ θ ) ⋅ P ( θ ) d θ \int_{\theta}P(\mathcal X,\theta)d\theta = \int_{\theta}P(\mathcal X \mid \theta)\cdot P(\theta)d\theta ∫θ​P(X,θ)dθ=∫θ​P(X∣θ)⋅P(θ)dθ

贝叶斯推断(Inference):特指 在贝叶斯框架内,将 θ \theta θ的后验概率分布 P ( θ ∣ X ) P(\theta \mid \mathcal X) P(θ∣X)求解出来。 贝叶斯决策(Decision):已知数据集合 X \mathcal X X中包含 N N N个样本,现存在一个 集合 X \mathcal X X外的样本 x ^ \hat x x^,求解集合 X \mathcal X X条件下, x ^ \hat x x^的后验概率 P ( x ^ ∣ X ) P(\hat x\mid \mathcal X) P(x^∣X)。

至此,我们通过模型参数 θ \theta θ,将集合 X \mathcal X X与新样本 x ^ \hat x x^关联起来: 概率密度积分方法~ P ( x ^ ∣ X ) = ∫ θ P ( x ^ , θ ∣ X ) d θ = ∫ θ P ( x ^ ∣ θ ) ⋅ P ( θ ∣ X ) d θ \begin{aligned} P(\hat x \mid \mathcal X) & = \int_{\theta} P(\hat x,\theta \mid \mathcal X)d\theta \\ & = \int_{\theta} P(\hat x \mid \theta) \cdot P(\theta \mid \mathcal X) d\theta \end{aligned} P(x^∣X)​=∫θ​P(x^,θ∣X)dθ=∫θ​P(x^∣θ)⋅P(θ∣X)dθ​ 至此,基于贝叶斯框架对 新样本 x ^ \hat x x^ 的预测过程:

  • 通过贝叶斯推断 求解参数 θ \theta θ的后验概率分布 P ( θ ∣ X ) P(\theta \mid \mathcal X) P(θ∣X);
  • 基于 P ( θ ∣ X ) P(\theta \mid \mathcal X) P(θ∣X),通过贝叶斯决策求解 x ^ \hat x x^的后验概率分布 P ( x ^ ∣ X ) P(\hat x \mid \mathcal X) P(x^∣X)。

观察上式,可以直接将 P ( x ^ ∣ X ) P(\hat x \mid \mathcal X) P(x^∣X)看做 P ( x ^ ∣ θ ) P(\hat x \mid \theta) P(x^∣θ)关于 P ( θ ∣ X ) P(\theta \mid \mathcal X) P(θ∣X)的期望形式: P ( x ^ ∣ X ) = E θ ∣ X [ P ( x ^ ∣ θ ) ] P(\hat x \mid \mathcal X) = \mathbb E_{\theta \mid \mathcal X} \left[P(\hat x \mid \theta)\right] P(x^∣X)=Eθ∣X​[P(x^∣θ)] 因此,贝叶斯角度实现新样本 x ^ \hat x x^的预测过程,其核心在于:如何求解参数的后验概率分布 P ( θ ∣ X ) P(\theta \mid \mathcal X) P(θ∣X)。 因此,求解后验概率分布 P ( θ ∣ X ) P(\theta \mid \mathcal X) P(θ∣X)这个行为被称为推断(Inference)。 和频率角度看待问题的核心区别:

  • 频率角度求解的是‘模型参数’ θ \theta θ的‘具体结果’或‘迭代产生的近似结果’;(仅关于参数本身)
  • 贝叶斯角度求解的是‘一个概率分布’,关于参数 θ \theta θ的后验概率分布 P ( θ ∣ X ) P(\theta \mid \mathcal X) P(θ∣X)

推断主要分为如下几种类型:

  • 精确推断(Exact Inference): P ( θ ∣ X ) P(\theta \mid \mathcal X) P(θ∣X)可以直接求解。常见的精确推断有:
    • 变量消去法
    • 信念传播(Belief Propagation)
  • 近似推断(Approximate Inference):使用近似推断的核心原因是参数空间维度、隐变量空间维度 K \mathcal K K过高,使得对 P ( X ) P(\mathcal X) P(X)的求解过程中出现 积分难问题: P ( X ) = ∫ Z P ( X ∣ Z ) ⋅ P ( Z ) d Z = ∫ z 1 ⋯ ∫ z K P ( X ∣ Z ) ⋅ P ( Z ) d z 1 , ⋯   , z K \begin{aligned} P(\mathcal X) & = \int_{\mathcal Z} P(\mathcal X \mid \mathcal Z) \cdot P(\mathcal Z)d\mathcal Z \\ & = \int_{z_1} \cdots \int_{z_{\mathcal K}} P(\mathcal X \mid \mathcal Z) \cdot P(\mathcal Z) dz_1,\cdots,z_{\mathcal K} \end{aligned} P(X)​=∫Z​P(X∣Z)⋅P(Z)dZ=∫z1​​⋯∫zK​​P(X∣Z)⋅P(Z)dz1​,⋯,zK​​ 从而没有办法直接求解后验 P ( θ ∣ X ) P(\theta \mid \mathcal X) P(θ∣X)。因此,只能通过某些方法近似求解后验概率分布 P ( θ ∣ X ) P(\theta \mid \mathcal X) P(θ∣X)。 近似推断可以细分为如下两类:
    • 确定性近似。代表方法:变分推断;
    • 随机近似。代表方法:马尔可夫链蒙特卡洛方法(Markov Chain Monte Carlo,MCMC)

下一节将介绍变分推断的公式推导。

相关参考: 机器学习-变分推断1(背景介绍)

关注
打赏
1664446683
查看更多评论
立即登录/注册

微信扫码登录

0.0399s