您当前的位置: 首页 > 

宝哥大数据

暂无认证

  • 2浏览

    0关注

    1029博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

SVM(支持向量机)

宝哥大数据 发布时间:2019-07-27 08:24:30 ,浏览量:2

一、理论介绍 1.1、基于最大的间隔数据

分隔超平面: 将数据集分隔开来的直线(推及三维空间,就是一个平面), 也就是分类的决策边界。在超平面一侧的数据属于某一类, 在另一侧的数据属于另外一类。

  我们希望能采用这种方式来构建分类器,即如果数据点离决策边界越远,那么其最后的预测,结果也就越可信。多个超平面它们都能将数据分隔开,但是其中哪一个最好呢?是否应该最小化数据点到分隔超平面的平均距离?来求最佳直线如果是那样,是不是有点寻找最佳拟合直线的感觉? 是的,上述做法确实有点像直线拟合,但这并非最佳方案。我们希望找到离分隔超平面最近的点,确保它们离分隔面的距离尽可能远。这里点到分隔面的距离被称为间隔°( margin)。我们希望间隔尽可能地大,这是因为如果我们犯错或者在有限数据上训练分类器的话,我们希望分类器尽可能的健壮。

1.2、寻找最大间隔

  如何求解数据集的最佳分隔直线? 先看看下图。分隔超平面的形式可以写成 w T x    +    b w^Tx\;+\;b wTx+b。要计算点A到分隔超平面的距离,就必须给出点到分隔面的法线或垂线的长度,该值为 ∣ w T x    +    b ∣ ∣ ∣ w ∣ ∣ \frac{\left|w^Tx\;+\;b\right|}{\left|\left|w\right|\right|} ∣∣w∣∣∣wTx+b∣​。这里的常数b类似于Lgistic回归中的截距 w 0 w_0 w0​。这里的向量 w w w和常数b一起描述了所给数据的分隔线或超平面。接下来我们讨论分类器。 在这里插入图片描述

1.2.1、分类器求解的优化问题

  前面已经提到了分类器,但还没有介绍它的工作原理。理解其工作原理将有助于理解基于优化问题的分类器求解过程。输入数据给分类器会输出一个类别标签 ,这相当于一个类似于Sigmoid的函数在作用。下面将使用类似海维赛德阶跃函数(即单位阶跃函数)的函数对 w T x + b w^Tx+b wTx+b作用得到 f ( w T x + b ) f(w^Tx+b) f(wTx+b),其中当u

关注
打赏
1587549273
查看更多评论
立即登录/注册

微信扫码登录

0.0441s