您当前的位置: 首页 >  算法

IT之一小佬

暂无认证

  • 0浏览

    0关注

    1192博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

k近邻算法之 k值的选择

IT之一小佬 发布时间:2021-03-06 23:16:45 ,浏览量:0

k近邻算法之 k值的选择

举例说明:

K值过小:  【过拟合】

​ 容易受到异常点的影响   【如:美人鱼本身就是喜剧片,假如统计的时候记为动作片,则对预测值的影响太大】

k值过大:  【欠拟合】

​ 受到样本均衡的问题  【假如k=6时,再多选《二次曝光》爱情片,此时3个爱情片,3个喜剧片,结果无法判断】【假如k=7时,又再多选了《谍影重重》动作片,此时3:3:1,也无法判断】

【k值一般选择奇数;3,5,7】

【拓展】

K值选择问题,李航博士的一书「统计学习方法」上所说:

1) 选择较小的K值,就相当于用较小的领域中的训练实例进行预测,“学习”近似误差会减小,只有与输入实例较近或相似的训练实例才会对预测结果起作用,与此同时带来的问题是“学习”的估计误差会增大,换句话说,K值的减小就意味着整体模型变得复杂,容易发生过拟合;

2) 选择较大的K值,就相当于用较大领域中的训练实例进行预测,其优点是可以减少学习的估计误差,但缺点是学习的近似误差会增大。这时候,与输入实例较远(不相似的)训练实例也会对预测器作用,使预测发生错误,且K值的增大就意味着整体的模型变得简单。

3) K=N(N为训练样本个数),则完全不足取,因为此时无论输入实例是什么,都只是简单的预测它属于在训练实例中最多的类,模型过于简单,忽略了训练实例中大量有用信息。

在实际应用中,K值一般取一个比较小的数值,例如采用交叉验证法(简单来说,就是把训练数据在分成两组:训练集和验证集)来选择最优的K值。对这个简单的分类器进行泛化,用核方法把这个线性模型扩展到非线性的情况,具体方法是把低维数据集映射到高维特征空间。

近似误差:对现有训练集的训练误差,关注训练集,如果近似误差过小可能会出现过拟合的现象,对现有的训练集能有很好的预测,但是对未知的测试样本将会出现较大偏差的预测。模型本身不是最接近最佳模型。  【过拟合---在训练集上表现好,测试集上表现不好】

估计误差:可以理解为对测试集的测试误差,关注测试集,估计误差小说明对未知数据的预测能力好,模型本身最接近最佳模型。【估计误差好才是真的好】

关注
打赏
1665675218
查看更多评论
立即登录/注册

微信扫码登录

0.0428s