机器学习笔记之线性分类——线性回归基本性质介绍与线性分类

引言
- 回顾：线性回归
- 线性回归基本性质
- - 线性性质
  - 特征空间的全局性性质
  - 数据未加工性质

引言

本系列将介绍线性分类。

回顾：线性回归

线性回归(Linear Regression)是最基础的概率模型之一，它的概率模型表现格式如下： f ( W , b ) = W T x + b f(\mathcal W,b) = \mathcal W^{T}x + b f(W,b)=WTx+b 其中， x x x样本数据提供的特征信息，是已知量；一般情况下，每一个样本 x ( i ) ( i = 1 , 2 , ⋯ , N x^{(i)}(i=1,2,\cdots,N x(i)(i=1,2,⋯,N； N N N表示样本数量 ) ) )是一个 p p p维向量： x ( i ) = ( x 1 ( i ) , x 2 ( i ) , ⋯ , x p ( i ) ) p × 1 T x^{(i)} = (x_1^{(i)},x_2^{(i)},\cdots,x_p^{(i)})^{T}_{p \times 1} x(i)=(x1(i),x2(i),⋯,xp(i))p×1T 同理， W \mathcal W W也是一个 p p p维向量： W = ( w 1 , w 2 , ⋯ , w p ) p × 1 T \mathcal W = (w_1,w_2,\cdots,w_p)^{T}_{p \times 1} W=(w1,w2,⋯,wp)p×1T b b b被称为偏置(bias)，具体作用是线性计算结果 W T x \mathcal W^{T}x WTx在特征空间中的平移信息，是一个标量；

线性回归的处理相关任务的朴素思想是模型拟合结果 f ( x ( i ) ; W , b ) f(\mathcal x^{(i)};W,b) f(x(i);W,b)和对应的真实标签 y ( i ) y^{(i)} y(i)之间的差距。因此，处理线性回归任务常用的策略工具是最小二乘法： 一般情况下，为了简化推导过程，通常将 b b b合并到 W T x \mathcal W^{T}x WTx中。 L ( W , b ) = ∑ i = 1 N ∣ ∣ W T x ( i ) − y ( i ) ∣ ∣ 2 \mathcal L(\mathcal W,b) = \sum_{i=1}^N ||\mathcal W^{T}x^{(i)} - y^{(i)}||^2 L(W,b)=i=1∑N∣∣WTx(i)−y(i)∣∣2

线性回归基本性质

即便线性回归模型结构简单，但仍包含3大基本性质：

线性性质；
特征空间的全局性；
样本未执行加工；

相比于上述三大基本性质，可以通过违背上述一条或几条性质来实现其他的具体模型。

线性性质

线性回归的线性性质共包含3类：

基于样本特征的线性性质观察线性回归概率模型中样本向量 x ( i ) x^{(i)} x(i)与权重向量 W \mathcal W W之间的线性计算过程： W T x ( i ) = ( w 1 , w 2 , ⋯ , w p ) ( x 1 ( i ) x 2 ( i ) ⋮ x p ( i ) ) = w 1 x 1 ( i ) + w 2 x 2 ( i ) + ⋯ + w p x p ( i ) ( x ( i ) ∈ X ) \mathcal W^{T}x^{(i)} = (w_1,w_2,\cdots,w_p)\begin{pmatrix}x_1^{(i)} \\ x_2^{(i)} \\ \vdots \\ x_p^{(i)} \end{pmatrix} = w_1x_1^{(i)} + w_2x_2^{(i)} + \cdots + w_px_p^{(i)}(x^{(i)} \in \mathcal X) WTx(i)=(w1,w2,⋯,wp)⎝ ⎛x1(i)x2(i)⋮xp(i)⎠ ⎞=w1x1(i)+w2x2(i)+⋯+wpxp(i)(x(i)∈X) 通过观察发现，产生标量 W T x ( i ) \mathcal W^{T}x^{(i)} WTx(i)的任意一个分量 w k x k ( i ) ( k = 1 , 2 , ⋯ , p ) w_kx_k^{(i)}(k=1,2,\cdots,p) wkxk(i)(k=1,2,⋯,p) 可将其视为在特征空间的第 k k k维度上权重向量分量 w k w_k wk与样本向量分量 x k ( i ) x_k^{(i)} xk(i)之间属于线性关系。相反，如果样本向量 x ( i ) x^{(i)} x(i)与标签信息 y ( i ) y^{(i)} y(i)之间不是线性关系，而是非线性关系，那么常用于拟合非线性关系的方式是多项式回归。多项式回归如何表示呢？我们假设任意样本向量 x ( j ) x^{(j)} x(j)是一个二维向量，比较该向量的线性关系和二次多项式拟合关系表示如下： f 1 ( x ( j ) , W ) = ( w 1 , w 2 ) ( x 1 ( j ) x 2 ( j ) ) = w 1 x 1 ( j ) + w 2 x 2 ( j ) f 2 ( x ( j ) , W ) = ( w 1 , w 2 , w 3 ) ( [ x 1 ( j ) ] 2 [ x 2 ( j ) ] 2 x 1 ( j ) x 2 ( j ) ) = w 1 [ x 1 ( j ) ] 2 + w 2 [ x 2 ( j ) ] 2 + w 3 x 1 ( j ) x 2 ( j ) f_1(x^{(j)},\mathcal W) = (w_1,w_2)\begin{pmatrix}x_1^{(j)} \\ x_2^{(j)}\end{pmatrix} = w_1x_1^{(j)} + w_2x_2^{(j)} \\ f_2(x^{(j)},\mathcal W) = (w_1,w_2,w_3)\begin{pmatrix}\left[x_1^{(j)}\right]^2 \\ \left[x_2^{(j)}\right]^2 \\ x_1^{(j)}x_2^{(j)}\end{pmatrix} = w_1\left[x_1^{(j)}\right]^2 + w_2\left[x_2^{(j)}\right]^2 + w_3x_1^{(j)}x_2^{(j)} f1(x(j),W)=(w1,w2)(x1(j)x2(j))=w1x1(j)+w2x2(j)f2(x(j),W)=(w1,w2,w3)⎝ ⎛[x1(j)]2[x2(j)]2x1(j)x2(j)⎠ ⎞=w1[x1(j)]2+w2[x2(j)]2+w3x1(j)x2(j) 二次多项式回归中样本向量内均二次项，并且包含各维度分量的融合特征；而线性回归中样本向量内只包含一次项，各维度分量相互划分，但并不意味着它们一定是相互独立的；
基于全局特征的线性性质全局特征的具体意义：这里全局特征是指样本向量 x ( i ) x^{(i)} x(i)通过拟合方程 f ( W , b ) f(\mathcal W,b) f(W,b)得到的拟合方程预测结果。线性回归中 x ( i ) x^{(i)} x(i)对应的全局特征表示如下： f ( W , b ) = W T x ( i ) + b f(\mathcal W,b) = \mathcal W^{T}x^{(i)} + b f(W,b)=WTx(i)+b 观察，线性回归的全局特征在执行完 W T x ( i ) + b \mathcal W^{T}x^{(i)} + b WTx(i)+b之后并没有执行任何非线性运算，而是直接将 W T x ( i ) + b \mathcal W^{T}x^{(i)} +b WTx(i)+b作为输出。相反，全局特征的非线性通常指拟合方程 f ( W , b ) f(\mathcal W,b) f(W,b)中包含非线性激活函数。具体代表是线性分类。非线性激活函数包含连续型和非连续型两种，分别对应线性分类中的软分类与硬分类。软分类激活函数具有代表性的是处理二分类任务的sigmoid激活函数。 sigmoid函数具体公式表示如下： s i g m o i d ( x ) = 1 1 + e − x sigmoid(x) = \frac{1}{1 + e^{-x}} sigmoid(x)=1+e−x1 该函数对应的拟合方程可以通过映射得到非线性拟合方程预测结果。基于sigmoid函数的线性分类中 x ( i ) x^{(i)} x(i)对应的全局特征表示如下： f 1 ( W , b ) = s i g m o i d ( W T x ( i ) + b ) f_1(\mathcal W,b) = sigmoid(\mathcal W^{T}x^{(i)} + b) f1(W,b)=sigmoid(WTx(i)+b) 硬分类激活函数具有代表性的是感知机算法。感知机算法的激活函数表示如下： 其中k表示感知机分类过程中的划分规则，即‘阈值’。 s i g n ( x ) = { 1 i f x > k 0 e l s e sign(x) = \begin{cases}1 \quad if \quad x>k \\ 0 \quad else\end{cases} sign(x)={1ifx>k0else 对应的，感知机算法中 x ( i ) x^{(i)} x(i)对应的全局特征表示如下： f 2 ( W , b ) = s i g n ( W T x ( i ) + b ) f_2(\mathcal W,b) = sign(\mathcal W^{T}x^{(i)} + b) f2(W,b)=sign(WTx(i)+b)
基于权重特征的线性性质拟合方程 f ( W , b ) f(\mathcal W,b) f(W,b)中 W , b \mathcal W,b W,b都是权重特征，它们依附于拟合方程，对样本向量 x ( i ) x^{(i)} x(i)的特征进行挖掘和表示。它不同于样本特征的线性性质：
- 因为样本特征是看得见、摸得着的真实数据，我们可能通过观察、统计等方式正面或侧面发现该数据是否存在线性关系；
- 权重特征只是拟合方程的一个参数，必要时它可以等于任何值。因此权重特征不会存在高次项的情况。
权重特征的线性与非线性主要区别在于模型参数是否存在变化。线性回归构建模型参数 W \mathcal W W的主要逻辑是基于数据集合 D a t a = { ( x ( i ) , y ( i ) ) ∣ i = 1 , 2 , ⋯ , N } Data = \{(x^{(i)},y^{(i)})\mid_{i=1,2,\cdots,N}\} Data={(x(i),y(i))∣i=1,2,⋯,N}实现的。在数据集合确定的情况下，必然存在最优的最小二乘法结果： L ( W ) = ∑ i = 1 N ∣ ∣ W T x ( i ) − y ( i ) ∣ ∣ 2 \mathcal L(\mathcal W) = \sum_{i=1}^N||\mathcal W^{T}x^{(i)} - y^{(i)}||^2 L(W)=i=1∑N∣∣WTx(i)−y(i)∣∣2 即便能够使 L ( W ) \mathcal L(\mathcal W) L(W)数值达到最小对应的模型参数 W \mathcal W W可能存在若干个，即： L ( W 1 ) = L ( W 2 ) = ⋯ = L ( W k ) = arg ⁡ min ⁡ W L ( W ) \mathcal L(\mathcal W_1) = \mathcal L(\mathcal W_2) = \cdots = \mathcal L(\mathcal W_k) = \mathop{\arg\min}\limits_{\mathcal W} \mathcal L(\mathcal W) L(W1)=L(W2)=⋯=L(Wk)=WargminL(W) 但是由于数据集合是确定的，这些权重参数 W i ( i = 1 , 2 , ⋯ , k ) \mathcal W_i(i=1,2,\cdots,k) Wi(i=1,2,⋯,k)对应的拟合函数 f ( W i ) f(\mathcal W_i) f(Wi)在样本空间中的图像是非常接近的。该数据集合的模型参数只会在 W 1 , W 2 , ⋯ , W k \mathcal W_1,\mathcal W_2,\cdots,\mathcal W_k W1,W2,⋯,Wk中进行选择，因此，线性回归的模型参数 W \mathcal W W被高度约束在 W i \mathcal W_i Wi范围中。

权重特征非线性的代表：感知机算法、神经网络。但无论是感知机算法、神经网络，由于处理任务的差异性，导致模型参数 W \mathcal W W的初始化是随机的。而感知机算法在确定模型参数后，通过调整激活函数中的阈值 k k k，来确定分类任务的拟合函数。那么不同的 W \mathcal W W可以得到不同的拟合函数，这些拟合函数可能在函数图像中存在较大区别，但是它们都能实现分类任务。

特征空间的全局性性质

不同于全局特征的线性性质，线性回归任务中拟合函数 f ( W , b ) f(\mathcal W,b) f(W,b)所拟合的样本特征空间是完整的样本特征空间。如： f ( W , b ) = W T x ( i ) + b = ( w 1 , w 2 , ⋯ , w p ) ( x 1 ( i ) x 2 ( i ) ⋮ x p ( i ) ) + b f(\mathcal W,b) = \mathcal W^{T}x^{(i)} + b = (w_1,w_2,\cdots,w_p)\begin{pmatrix}x_1^{(i)} \\ x_2^{(i)} \\ \vdots \\ x_p^{(i)}\end{pmatrix} +b f(W,b)=WTx(i)+b=(w1,w2,⋯,wp)⎝ ⎛x1(i)x2(i)⋮xp(i)⎠ ⎞+b

通过观察发现， f ( W , b ) f(\mathcal W,b) f(W,b)拟合的样本特征空间和 x ( i ) x^{(i)} x(i)的样本特征空间相同，都是 p p p维；相反，一些算法的模型并没有对完整特征空间进行计算，如线性样条回归。该算法本质上是将样本特征空间划分为若干个子空间，并对各个子空间内部进行线性回归。另一个经典算法是决策树算法。该算法是基于样本各维度的特性将数据集合划分为若干个相互独立的子类，并进行计算。

数据未加工性质

该性质的本质是指：样本信息 x ( i ) x^{(i)} x(i)没有经过特征空间变化等预处理操作，直接构建拟合函数进行计算： f ( W , b ) = W T x ( i ) + b f(\mathcal W,b) = \mathcal W^{T}x^{(i)} + b f(W,b)=WTx(i)+b 相反，在拟合计算之前执行预处理操作的代表方法：降维。为了简化运算，通过消除无效特征或者更换新的参考系来降低样本特征维度。

相关参考：机器学习-线性分类1-背景

机器学习笔记之线性分类——线性回归基本性质介绍与线性分类

[ 申请 ]友情链接：