您当前的位置: 首页 >  回归

静静的喝酒

暂无认证

  • 3浏览

    0关注

    99博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

机器学习笔记之线性回归——从概率密度函数角度认识最小二乘法

静静的喝酒 发布时间:2022-08-17 23:42:35 ,浏览量:3

机器学习笔记之线性回归——从概率密度函数角度认识最小二乘法
  • 引言
    • 回顾:符号定义与最小二乘法
    • 从概率密度函数角度观察最小二乘法
      • 数据的随机性与噪声定义

引言

上一节介绍了线性回归,并介绍了对 表达自变量 x x x与因变量 y y y之间关系的拟合方程 f ( W ) f(\mathcal W) f(W)中参数 W \mathcal W W 求解的一种工具——最小二乘法。本节将从 概率密度函数角度 观察最小二乘法。

回顾:符号定义与最小二乘法

已知数据集合 D a t a Data Data包含 N N N个由自变量 x x x与因变量 y y y组成的样本,并且 各样本之间独立同分布: D a t a = { ( x ( 1 ) , y ( 1 ) ) , ( x ( 2 ) , y ( 2 ) ) , ⋯   , ( x ( N ) , y ( N ) ) } Data = \{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(N)},y^{(N)})\} Data={(x(1),y(1)),(x(2),y(2)),⋯,(x(N),y(N))} 其中,任意一个自变量 x ( i ) ( 1 = 1 , 2 , ⋯   , N ) x^{(i)}(1=1,2,\cdots,N) x(i)(1=1,2,⋯,N)是一个 p p p维随机变量。记作 x ( i ) ∈ R p x^{(i)} \in \mathbb R^{p} x(i)∈Rp: x ( i ) = ( x 1 ( i ) x 2 ( i ) ⋮ x p ( i ) ) x^{(i)} = \begin{pmatrix} x_1^{(i)} \\ x_2^{(i)} \\ \vdots \\ x_p^{(i)} \end{pmatrix} x(i)=⎝ ⎛​x1(i)​x2(i)​⋮xp(i)​​⎠ ⎞​

因此,关于自变量 x x x的集合 X \mathcal X X可以表示为 N × p N \times p N×p的矩阵: X = ( x ( 1 ) , x ( 2 ) , ⋯   , x ( N ) ) T = ( x ( 1 ) T x ( 2 ) T ⋮ x ( N ) T ) = ( x 1 ( 1 ) , x 2 ( 1 ) , ⋯   , x p ( 1 ) x 1 ( 2 ) , x 2 ( 2 ) , ⋯   , x p ( 2 ) ⋮ x 1 ( N ) , x 2 ( N ) , ⋯   , x p ( N ) ) N × p \mathcal X = (x^{(1)},x^{(2)},\cdots,x^{(N)})^{T} = \begin{pmatrix}{x^{(1)}}^{T} \\ {x^{(2)}}^{T} \\ \vdots \\{x^{(N)}}^{T}\end{pmatrix} = \begin{pmatrix} x_1^{(1)},x_2^{(1)},\cdots,x_p^{(1)} \\ x_1^{(2)},x_2^{(2)},\cdots,x_p^{(2)} \\ \vdots \\ x_1^{(N)},x_2^{(N)},\cdots,x_p^{(N)} \end{pmatrix}_{N \times p} X=(x(1),x(2),⋯,x(N))T=⎝ ⎛​x(1)Tx(2)T⋮x(N)T​⎠ ⎞​=⎝ ⎛​x1(1)​,x2(1)​,⋯,xp(1)​x1(2)​,x2(2)​,⋯,xp(2)​⋮x1(N)​,x2(N)​,⋯,xp(N)​​⎠ ⎞​N×p​

对应的因变量 y y y的集合 Y \mathcal Y Y可表示为 p × 1 p \times 1 p×1的向量形式: Y = ( y ( 1 ) y ( 2 ) ⋮ y ( N ) ) N × 1 \mathcal Y = \begin{pmatrix}y^{(1)} \\ y^{(2)} \\ \vdots \\ y^{(N)}\end{pmatrix}_{N \times 1} Y=⎝ ⎛​y(1)y(2)⋮y(N)​⎠ ⎞​N×1​

最小二乘法的表达式如下: L ( W ) = ∑ i = 1 N ∣ ∣ W T x ( i ) − y ( i ) ∣ ∣ \mathcal L(\mathcal W) = \sum_{i=1}^N||\mathcal W^{T}x^{(i)} - y^{(i)}|| L(W)=i=1∑N​∣∣WTx(i)−y(i)∣∣

线性回归任务对于拟合方程 f ( W ) = W T x ( i ) ( i = 1 , 2 , ⋯   , N ) f(\mathcal W) = \mathcal W^{T}x^{(i)}(i=1,2,\cdots,N) f(W)=WTx(i)(i=1,2,⋯,N)的求解思路表示为:求解的模型参数 W \mathcal W W使得模型任意自变量 x ( i ) x^{(i)} x(i)的判别结果 W T x ( i ) \mathcal W^{T}x^{(i)} WTx(i)与对应因变量 y ( i ) y^{(i)} y(i)之间差距最小 ( i = 1 , 2 , ⋯   , N ) (i=1,2,\cdots,N) (i=1,2,⋯,N)。基于最小二乘估计方法,上述思路表示如下: W ^ = arg ⁡ max ⁡ W L ( W ) \hat {\mathcal W} = \mathop{\arg\max}\limits_{\mathcal W}\mathcal L(\mathcal W) W^=Wargmax​L(W)

上一节中求解了 W ^ \hat{\mathcal W} W^的一般式: W ^ = ( X T X ) − 1 X T Y \hat {\mathcal W} = (\mathcal X^{T} \mathcal X)^{-1} \mathcal X^{T}\mathcal Y W^=(XTX)−1XTY

从概率密度函数角度观察最小二乘法 数据的随机性与噪声定义

继续观察最小二乘法的表达式: L ( W ) = ∑ i = 1 N ∣ ∣ W T x ( i ) − y ( i ) ∣ ∣ 2 \mathcal L(\mathcal W) = \sum_{i=1}^N||\mathcal W^{T}x^{(i)} - y^{(i)}||^2 L(W)=i=1∑N​∣∣WTx(i)−y(i)∣∣2 目标是使 L ( W ) \mathcal L(\mathcal W) L(W)达到最小。那它的下界是多少呢?自然是0——假设存在某个自变量集合 X = { x ( 1 ) , x ( 2 ) , ⋯   , x ( N ) } \mathcal X=\{x^{(1)},x^{(2)},\cdots,x^{(N)}\} X={x(1),x(2),⋯,x(N)}与其对应的因变量集合 Y = { y ( 1 ) , y ( 2 ) , ⋯   , y ( N ) } \mathcal Y=\{y^{(1)},y^{(2)},\cdots,y^{(N)}\} Y={y(1),y(2),⋯,y(N)}之间属于 线性相关 关系,即任意一个 y ( i ) ( i = 1 , 2 , ⋯   , N ) y^{(i)}(i=1,2,\cdots,N) y(i)(i=1,2,⋯,N)均可以使用对应的 x ( i ) x^{(i)} x(i)进行线性表示。即: y ( i ) = W T x ( i ) y^{(i)} = \mathcal W^{T}x^{(i)} y(i)=WTx(i) 那么, L ( W ) = 0 \mathcal L(\mathcal W) = 0 L(W)=0恒成立。但这只是理想状态下的结果。在真实样本中,数据是存在噪声的,没有噪声的数据没有什么实际意义。

如果定义数据的噪声部分为 ϵ \epsilon ϵ,并假设 ϵ \epsilon ϵ服从高斯分布。即: 这里定义噪声 ϵ \epsilon ϵ与因变量 y ∈ Y y \in \mathcal Y y∈Y相同,均是1维随机变量,即标量。 ϵ ∼ N ( μ , σ 2 ) \epsilon \sim \mathcal N(\mu,\sigma^2) ϵ∼N(μ,σ2) 基于上述理想状态下,因变量 y ( i ) y^{(i)} y(i)与自变量 x ( i ) x^{(i)} x(i)之间的新关系表示如下: y ( i ) = f ( W ) + ϵ = W T x ( i ) + ϵ ( i = 1 , 2 , ⋯   , N ) y^{(i)} = f(\mathcal W) + \epsilon = \mathcal W^{T}x^{(i)} + \epsilon(i=1,2,\cdots,N) y(i)=f(W)+ϵ=WTx(i)+ϵ(i=1,2,⋯,N) 继续观察,由于 ϵ \epsilon ϵ服从高斯分布, y ( i ) y^{(i)} y(i)与 x ( i ) x^{(i)} x(i)之间存在线性关系,我们将 y ( i ) y^{(i)} y(i)理解为 高斯分布的随机结果 ϵ ( i ) \epsilon^{(i)} ϵ(i)向上平移了 W T x ( i ) \mathcal W^{T}x^{(i)} WTx(i)个单位 ( i = 1 , 2 , ⋯   , N ) (i=1,2,\cdots,N) (i=1,2,⋯,N),只是换了个位置,但它仍然是高斯分布。基于该思路,我们发现: y ( i ) ( i = 1 , 2 , ⋯   , N ) y^{(i)}(i=1,2,\cdots,N) y(i)(i=1,2,⋯,N)也是高斯分布。它服从的概率密度函数表示为: 将高斯分布仅平移至另一个位置,它并没有改变高斯分布影响的范围。因此,它的方差自然不会发生变化。 P ( y ( i ) ∣ x ( i ) ; W ) = W T x ( i ) + ϵ ∼ N ( W T x ( i ) + μ , σ 2 ) P(y^{(i)} \mid x^{(i)};\mathcal W) = \mathcal W^{T}x^{(i)} + \epsilon \sim \mathcal N(\mathcal W^{T}x^{(i)}+\mu,\sigma^2) P(y(i)∣x(i);W)=WTx(i)+ϵ∼N(WTx(i)+μ,σ2)

至此,我们得到了一个概率模型 P ( y ( i ) ∣ x ( i ) ; W ) P(y^{(i)} \mid x^{(i)};\mathcal W) P(y(i)∣x(i);W)。使用极大似然估计方法求解概率模型 P P P的模型参数 W \mathcal W W。 定义 L ( W ) L(\mathcal W) L(W)表示关于模型参数 W \mathcal W W的 log ⁡ \log log似然函数: L ( W ) = log ⁡ P ( Y ∣ X ; W ) L(\mathcal W) = \log P(\mathcal Y \mid \mathcal X;\mathcal W) L(W)=logP(Y∣X;W) 由于数据集合 D a t a Data Data中各样本之间独立同分布,因此将 L ( W ) L(\mathcal W) L(W)展开: L ( W ) = log ⁡ ∏ i = 1 N P ( y ( i ) ∣ x ( i ) ; W ) = ∑ i = 1 N log ⁡ P ( y ( i ) ∣ x ( i ) ; W ) \begin{aligned} L(\mathcal W) & = \log \prod_{i=1}^N P(y^{(i)} \mid x^{(i)};\mathcal W) \\ & = \sum_{i=1}^N \log P(y^{(i)} \mid x^{(i)}; \mathcal W) \end{aligned} L(W)​=logi=1∏N​P(y(i)∣x(i);W)=i=1∑N​logP(y(i)∣x(i);W)​ 由于 P ( y ( i ) ∣ x ( i ) ; W ) ∼ N ( W T x ( i ) + μ , σ 2 ) P(y^{(i)} \mid x^{(i)};\mathcal W) \sim \mathcal N(\mathcal W^{T}x^{(i)} + \mu,\sigma^2) P(y(i)∣x(i);W)∼N(WTx(i)+μ,σ2),直接将该高斯分布的概率密度函数表示出来: P ( y ( i ) ∣ x ( i ) ; W ) = 1 2 π σ e − [ y ( i ) − ( W T x ( i ) + μ ) ] 2 2 σ 2 P(y^{(i)} \mid x^{(i)};\mathcal W) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\left[y^{(i)} - \left(\mathcal W^{T}x^{(i)} + \mu\right)\right]^2}{2\sigma^2}} P(y(i)∣x(i);W)=2π ​σ1​e−2σ2[y(i)−(WTx(i)+μ)]2​ 将概率密度函数带回上式: L ( W ) = ∑ i = 1 N log ⁡ ( 1 2 π σ e − [ y ( i ) − ( W T x ( i ) + μ ) ] 2 2 σ 2 ) L(\mathcal W) = \sum_{i=1}^N \log \left(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\left[y^{(i)} - \left(\mathcal W^{T}x^{(i)} + \mu\right)\right]^2}{2\sigma^2}}\right) L(W)=i=1∑N​log⎝ ⎛​2π ​σ1​e−2σ2[y(i)−(WTx(i)+μ)]2​⎠ ⎞​ 将上式展开,展开结果如下: L ( W ) = ∑ i = 1 N log ⁡ ( 1 2 π σ ) + ∑ i = 1 N log ⁡ e − [ y ( i ) − ( W T x ( i ) + μ ) ] 2 2 σ 2 = ∑ i = 1 N log ⁡ ( 1 2 π σ ) − ∑ i = 1 N [ y ( i ) − ( W T x ( i ) + μ ) ] 2 2 σ 2 \begin{aligned} L(\mathcal W) & = \sum_{i=1}^N\log\left(\frac{1}{\sqrt{2\pi}\sigma}\right) + \sum_{i=1}^N\log e^{-\frac{\left[y^{(i)} - \left(\mathcal W^{T}x^{(i)} + \mu\right)\right]^2}{2\sigma^2}} \\ & = \sum_{i=1}^N \log \left(\frac{1}{\sqrt{2\pi}\sigma}\right) - \sum_{i=1}^N\frac{\left[y^{(i)} -\left(\mathcal W^{T}x^{(i)} + \mu\right)\right]^2}{2\sigma^2} \end{aligned} L(W)​=i=1∑N​log(2π ​σ1​)+i=1∑N​loge−2σ2[y(i)−(WTx(i)+μ)]2​=i=1∑N​log(2π ​σ1​)−i=1∑N​2σ2[y(i)−(WTx(i)+μ)]2​​ 根据极大似然估计的定义,概率模型 P ( Y ∣ X ; W ) P(\mathcal Y \mid \mathcal X;\mathcal W) P(Y∣X;W)的最优参数 W ^ \hat{\mathcal W} W^表示为: W ^ = arg ⁡ max ⁡ W L ( W ) \hat {\mathcal W} = \mathop{\arg\max}\limits_{\mathcal W}L(\mathcal W) W^=Wargmax​L(W) 继续观察 L ( W ) L(\mathcal W) L(W)的展开结果:

  • 第一项: ∑ i = 1 N log ⁡ ( 1 2 π σ ) \sum_{i=1}^N \log\left(\frac{1}{\sqrt{2\pi}\sigma}\right) ∑i=1N​log(2π ​σ1​)和 W \mathcal W W无关,即无论 W \mathcal W W取何值,均不影响第一项结果的变化;
  • 第二项:分母 2 σ 2 2\sigma^2 2σ2也和 W \mathcal W W无关。

至此,将 W ^ \hat {\mathcal W} W^结果化简如下: W ^ = arg ⁡ max ⁡ W ( ∑ i = 1 N log ⁡ ( 1 2 π σ ) − ∑ i = 1 N [ y ( i ) − ( W T x ( i ) + μ ) ] 2 2 σ 2 ) = arg ⁡ max ⁡ W − ∑ i = 1 N [ y ( i ) − ( W T x ( i ) + μ ) ] 2 = arg ⁡ min ⁡ W ∑ i = 1 N [ y ( i ) − ( W T x ( i ) + μ ) ] 2 \begin{aligned} \hat{\mathcal W} & = \mathop{\arg\max}\limits_{\mathcal W}\left(\sum_{i=1}^N \log \left(\frac{1}{\sqrt{2\pi}\sigma}\right) - \sum_{i=1}^{N}\frac{\left[y^{(i)} - \left(\mathcal W^{T}x^{(i)} + \mu\right)\right]^2}{2\sigma^2}\right) \\ & = \mathop{\arg\max}\limits_{\mathcal W} -\sum_{i=1}^N\left[y^{(i)} - \left(\mathcal W^{T}x^{(i)} + \mu\right)\right]^2 \\ & = \mathop{\arg\min}\limits_{\mathcal W} \sum_{i=1}^N \left[y^{(i)} - \left(\mathcal W^{T}x^{(i)} + \mu\right)\right]^2 \end{aligned} W^​=Wargmax​(i=1∑N​log(2π ​σ1​)−i=1∑N​2σ2[y(i)−(WTx(i)+μ)]2​)=Wargmax​−i=1∑N​[y(i)−(WTx(i)+μ)]2=Wargmin​i=1∑N​[y(i)−(WTx(i)+μ)]2​

将上述最优模型参数化简结果与最小二乘估计的标准式进行比较,发现:当 μ = 0 \mu = 0 μ=0时,最小二乘法与极大似然估计法求解最优模型参数的结果 W ^ \hat{\mathcal W} W^相同。这意味着:使用最小二乘法处理的数据集合 D a t a Data Data内部噪声服从均值为0的高斯分布的假设。

下一节将介绍正则化。

相关参考: 最小二乘法-概率视角-高斯噪声-MLE

关注
打赏
1664446683
查看更多评论
立即登录/注册

微信扫码登录

0.3027s