参考:
- 统计方法分析-李航
感知机( perceptron)是二分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1
和-1
二值。感机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知模型。感知机学习算法具有简单而易于实现的优点,分为原始形式和对偶形式。感知机预测是用学习得到的感知机模型对新的输入实例进行分类,感知机1957年由 Rosenblatt提出,是神经网络与支持向量机的基础。
本章首先介绍感知机模型;然后叙述感知的学习策略,特别是损失函数;最后介绍感知机学习算法,包括原始形式和对偶形式,并证明算法的收敛性。
二、模型、策略、算法 2.1、模型 2.1.1、感知机结构
w
权值(weight)或者权值向量(weight vector)b
偏置(bias)w * x
为内积- sign 为符号函数
线性方程 wx+b = 0
对应于特征空间 Rn 的一个超平面S,w是超平面S的法向量,b是超平面的截距,这个超平面将特征空间划分成两部分,两部分的点(特征向量)被分为正、负两类。因此,超平面也为分离超平面,如下图:
对任何一个点(xi, yi)到
0= wx + b
距离, 根据颠倒直线的距离公式:
带入样本点得到如下式子: 其中
||w||
是w的L2范式。
所以误分类的点到超平面的距离:注意符号
注: y(wx+b)
称为样本点的函数间隔。
1/||w||
???
2.2.2、损失函数
显然,损失函数
L(w,b)
是非负的。如果没有误分类点,损失函数值是0(上面损失函数是基于误分类集合)。而且,误分类点越少,误分类点离超平面越,损失函数值就越小一个特定的样本点的损失函数: 在误分类时是参数w,b的线性函数,在正确分类时是0。因此,给定训练数据集T,损失函数L(w,b)
是w,b的连续可导函数。
感知机的学习策略是在假设空间选取使损失函数最小的模型参数w,b。即感知机模型。
2.3、算法 2.3.1、原始形式我们上面选择的损失函数是可导的,因此可以采用一般的梯度下降法对感知机的参数进行学习,这里我们采用随机梯度下降法。首先我们可以推导得到损失函数对于参数w与b的梯度: