您当前的位置: 首页 >  机器学习

钟钟终

暂无认证

  • 0浏览

    0关注

    233博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

机器学习(二)

钟钟终 发布时间:2021-12-02 01:40:24 ,浏览量:0

模型的评估与选择

1.经验误差与过拟合 过拟合:表示训练集中提取的规律当成所有样本的潜在性质,导致泛化能力的下降。 欠拟合:表示在训练集中提取的规律片面,造成错误判断。 m样本数量:10000张手写字体的图片 Y样本正确的结果:第一张图片为1,第二张为7 使用模型进行预测,结果为Y0 error rate: E=a/m (错的个数除以总数) ------称作训练误差或经验误差 accuracy:1-E error 误差: 绝对值(Y-Y0)

2.评估方法(训练集、验证集、测试集) training set训练集 training set训练集的保留方法: 留出法(简单37分,28分) : 要注意训练集和测试集同分布,或者多次随机划分,训练出多个模型,最后取平均值。 交叉验证法: 在这里插入图片描述

k折交叉验证,但当数据量较大时,对算力要求较高。 自助法: 当数据集较小时,难以划分的时候采用。 缺点时改变初始数据集的分布,会引入估计差值。 *def: 1.给定m个样本 数据集D,对它进行采样产生数据集D0; 2.每次随机有放回的挑选一个样本,将其拷贝放入D0中; 3.重复m次,得到包含m个样本的数据集D0,这就是自主采样的结果。 4.D中一部分样本会出现在D0中,一部分样本不出现。样本在m次采样中始终不被采到的概率为 (1-1/m) ^m 取得极限为 在这里插入图片描述

即通过自助采样,初始数据集中D中约有36.8%的样本未出现在数据集D0中中。 我们可将D0作为训练集,D\D0用作测试集(结果为未出现的元素)。

validation set验证集: 调参很难,很多人都是人为规定的 eg.三个参数,每个参数有5个候选值,那么对于一个训练集/测试集就有5^3(125)个模型要考察。

因为泛化能力,就需要有训练集和测试集,因为要调参加入验证集。 性能度量 均方误差、错误率、精度 在这里插入图片描述

在这里插入图片描述 混淆矩阵、P-R反向变动关系原理、阈值、最优阈值的确定(三种方法) 在这里插入图片描述 多分类问题,分解为多个2分类问题、ROC曲线 在这里插入图片描述 AUC(ROC曲线的面积) 和 loss-rank(排序损失) 在这里插入图片描述

关注
打赏
1664378814
查看更多评论
立即登录/注册

微信扫码登录

0.0418s