凌云时刻 · 技术
导读:这篇笔记主要介绍梯度下降法,梯度下降不是机器学习专属的算法,它是一种基于搜索的最优化方法,也就是通过不断的搜索然后找到损失函数的最小值。像上篇笔记中使用正规方程解实现多元线性回归,基于 这个模型我们可以推导出 的数学解,但是很多模型是推导不出数学解的,所以就需要梯度下降法来搜索出最优解。
作者 | 计缘
来源 | 凌云时刻(微信号:linuxpk)
优化梯度公式
我们先将之前推导出来的梯度公式写出来:
将展开来看:
将第一行的元素形式统一,每项都乘以 ,并且 恒等于1:
下面我们来两个矩阵,A为一个1行m列的矩阵,B为一个m行n列的矩阵:
在第二篇笔记中我们复习过矩阵的运算,让A矩阵点乘B矩阵会得到一个1行n列的新矩阵:
注意上面 A⋅B的矩阵是1行n列的矩阵,将其转置后就称为了n行1列的矩阵,正是之前展开的梯度 ∇L,所以我们的梯度公式可写为:
如此一来我们就可以修改一下之前封装的梯度的方法了:
# 定义梯度
def dL(theta, X_b, y):
# # 开辟空间,大小为theta向量的大小
# gradient = np.empty(len(theta))
# # 第0元素个特殊处理
# gradient[0] = np.sum(X_b.dot(theta) - y)
#
# for i in range(1, len(theta)):
# # 矩阵求和可以转换为点乘
# gradient[i] = (X_b.dot(theta) - y).dot(X_b[:, i])
return X_b.T.dot(X_b.dot(theta) - y) * 2 / len(X_b)
此时就可以用一行代码取代之前的for循环来实现梯度了。
用真实数据测试梯度下降法
我们用Scikit Learn提供的波士顿房价来测试一下梯度下降法:
import numpy as np
from sklearn import datasets
boston = datasets.load_boston()
X = boston.data
y = boston.target
X = X[y < 50.0]
y = y[y < 50.0]
# 取前10行数据观察一下
X[10:]
# 结果
Out[17]:
array([[ 2.24890000e-01, 1.25000000e+01, 7.87000000e+00, ...,
1.52000000e+01, 3.92520000e+02, 2.04500000e+01],
[ 1.17470000e-01, 1.25000000e+01, 7.87000000e+00, ...,
1.52000000e+01, 3.96900000e+02, 1.32700000e+01],
[ 9.37800000e-02, 1.25000000e+01, 7.87000000e+00, ...,
1.52000000e+01, 3.90500000e+02, 1.57100000e+01],
...,
[ 6.07600000e-02, 0.00000000e+00, 1.19300000e+01, ...,
2.10000000e+01, 3.96900000e+02, 5.64000000e+00],
[ 1.09590000e-01, 0.00000000e+00, 1.19300000e+01, ...,
2.10000000e+01, 3.93450000e+02, 6.48000000e+00],
[ 4.74100000e-02, 0.00000000e+00, 1.19300000e+01, ...,
2.10000000e+01, 3.96900000e+02, 7.88000000e+00]])
从前10行的数据中可以看出来,数据之间的差距非常大,不同于正规方程法的 有数学解,在梯度下降中会非常影响梯度的值,既影响 的搜索,从而影响收敛速度和是否能收敛,所以一般在使用梯度下降法前,都需要对数据进行归一化处理,将数据转换到同一尺度下。在第三篇笔记中介绍过数据归一化的方法,Scikit Learn中也提供了数据归一化的方法,我们就使用Scikit Learn中提供的方法对波士顿数据进行归一化:
# 先将样本数据拆分为训练样本数据和测试样本数据
from myML.modelSelection import train_test_split
X_train, y_train, X_test, y_test = train_test_split(X, y, seed=123)
# 使用Scikit Learn提供的数据归一化方法处理训练数据
from sklearn.preprocessing import StandardScaler
standard_scalar = StandardScaler()
standard_scalar.fit(X_train)
X_train_standard = standard_scalar.transform(X_train)
# 再来看看归一化后的数据前10行,和未归一化之前的做一下比较
X_train_standard[10:]
# 结果
array([[-0.3854578 , -0.49494584, -0.70629402, ..., -0.5235474 ,
0.22529916, -1.09634897],
[ 8.34092707, -0.49494584, 1.03476103, ..., 0.80665081,
0.32122168, 1.38375621],
[-0.44033902, 1.83594326, -0.83504431, ..., -0.90360404,
0.45082029, -0.83197228],
...,
[-0.39976896, -0.49494584, 1.58926511, ..., 1.28172161,
0.42018591, 0.2101475 ],
[-0.422702 , -0.49494584, -0.74140773, ..., 0.33158002,
0.4131248 , -0.41372555],
[-0.44280463, 3.05688517, -1.35589775, ..., -0.14349077,
-0.1499176 , -0.02205637]])
可以看到数据都在同一个尺度内了,然后我们用优化后的梯度下降法来训练归一化后的样本数据:
from myML.LinearRegression import LinearRegression
lr = LinearRegression()
lr.fit_gd(X_train_standard, y_train)
lr.intercept_
# 结果
21.629336734693847
lr.coef_
# 结果
array([-0.9525182 , 0.55252408, -0.30736822, -0.03926274, -1.37014814,
2.61387294, -0.82461734, -2.36441751, 2.02340617, -2.17890468,
-1.76883751, 0.7438223 , -2.25694241])
# 在计算score前,需要对X_test数据也进行归一化处理
X_test_standard = standard_scalar.transform(X_test)
lr1.score(X_test_standard, y_test)
# 结果
0.80028998868733348
看到结果与我们之前使用正规方程法得到的结果是一致的。
END
往期精彩文章回顾
机器学习笔记(十):梯度下降
机器学习笔记(九):多元线性回归
机器学习笔记(八):线性回归算法的评测标准机器学习笔记(七):线性回归
机器学习笔记(六):数据归一化
机器学习笔记(五):超参数
机器学习笔记(四):kNN算法
机器学习笔记(三):NumPy、Matplotlib、kNN算法机器学习笔记(二):矩阵、环境搭建、NumPy
机器学习笔记(一):机器的学习定义、导数和最小二乘
长按扫描二维码关注凌云时刻
每日收获前沿技术与科技洞见