【ML吴恩达】6 数据集的划分以及回归模型评估指标

Better Bench 发布时间：2020-11-28 19:44:41 ，浏览量：5

1 训练集测试集的划分以及模型评估
- 1.1 测试集是训练集的一部分
- 1.2 训练集和测试集不相交
2 评估指标
- 2.1 回归准确率linear accuracy
- 2.2 模型错误指标
3 复合回归模型
- 3.1 复合回归模型的例子
- 3.2 复合回归预测连续值
- 3.3 问答

1 训练集测试集的划分以及模型评估

训练集和测试集的划分有以下两种方式。在这里插入图片描述

1.1 测试集是训练集的一部分

Train and Test on the Same Dataset 测试集来自训练集中。测试集是训练集中的一部分。具有高的训练准确率，很低的out-of-sample准确率。 What is training & out-of-sample accuracy?

Training Accuracy
- 训练时候的高准确率不是一个好的事情
- 结果的过拟合（过拟合就是模型过度训练，提取了太多了噪声并产生了一个模糊的模型）
Out-of-Sample accuracy超过样本准确率
- 我们的模型必须要有高的out-of-Sample准确率
- 如何提高out-of-accuracy

1.2 训练集和测试集不相交

Train/Test Split 训练集和测试集是不一样的数据。数据是互斥的，有更高的out-of-sample准确率。问：How to use K-fold cross-validation ? 答：利用K折交叉验证在这里插入图片描述

把数据集分为四部分，每个部分分别取训练得到准确率，然后取四个准确率的平均值。

2 评估指标 2.1 回归准确率linear accuracy 2.2 模型错误指标

以下6个指标的选择，根据你的模型类型、数据类型、知识领域去决定使用哪个。 Error:measure of how far the data is from the fitted regression line. 在这里插入图片描述

在这里插入图片描述

平均误差绝对值

在这里插入图片描述

均方误差

在这里插入图片描述

均方根误差

在这里插入图片描述

相对绝对误差

在这里插入图片描述

相对均方误差

在这里插入图片描述

R均方误差 3 复合回归模型 3.1 复合回归模型的例子

（1）自变量（Independent variables）对预测的有效性比如：复习时间、测试紧张程度、出席率、性别对学生考试成绩的影响（2）预测变化的影响病人的BMI每增加一个单位，血压会增加会减小多少

3.2 复合回归预测连续值

举例比如发动机大小与气缸的数量约Co2的排放量的关系。在这里插入图片描述

（1）第一步使用MSE均方误差去评价模型的错误在这里插入图片描述

（2）第二步估计复合线性回归的参数方法一最小二乘法（takes a long tim for large datasets(10K+ rows)）方法二最优化算法：梯度下降（适合大数据）（3）第三步：预测结果在这里插入图片描述

3.3 问答

（1）How to determine whether to use simple or multipl linear regression? 一个自变量还是多个自变量。一个自变量选择简单回归，反之。（2）How many independent variables should you use? 过多的自变量没有理论依据容易导致过拟合模型。尽量避免多个自变量去预测，有很多模型可以去避免，但不在这里展开。（3）Should the indepent variable be continuous？不一定，比如电动车可以表示为0，其他汽车表示为1。连续的变量都可表示我离散的数值。（4）What are the linear relationships between the dependent variable and the independent variable? 有很多办法，比如画出scatter plot，查看他们的线性关系。如果是非线性关系，用非线性回归模型。

关注

打赏

1688896170

查看更多评论

【ML吴恩达】6 数据集的划分以及回归模型评估指标

[ 申请 ]友情链接：