目录
损失函数或者代价函数
损失函数,代价函数,目标函数定义
欠拟合
增加特征项:
构造复杂的多项式:
减少正则化参数:
过拟合
增大训练的数据量:
采用正则化方法:
Dropout方法:
正则化的作用
正则化(增加模型参数,不要拟合的太真)
数学上解释正则化的作用
为什么参数小模型会简单
损失函数或者代价函数损失函数或者代价函数的目的是:衡量模型的预测能力的好坏。
损失函数(Loss function):是定义在单个训练样本上的,也就是就算一个样本的误差,比如我们想要分类,就是预测的类别和实际类别的区别,是一个样本的哦,用L表示。
代价函数(Cost function):是定义在整个训练集上面的,也就是所有样本的误差的总和的平均,也就是损失函数的总和的平均,有没有这个平均其实不会影响最后的参数的求解结果。
模型在训练阶段会拟合出一个函数,其中的函数是包含参数的。
损失函数或者代价函数越小越好,也就说明预测值和标签的值越接近,模型的预测能力越强。但是如何才能让损失函数或者代价函数的值得到优化,换句话说,优化的就是模型拟合出的函数参数,通过寻找合适参数实现模型的预测能力变强的梦想,如何寻找优秀的参数值,那就需要梯度下降出场解救模型能力。
损失函数,代价函数,目标函数定义损失函数(Loss Function )是定义在单个样本上的,算的是一个样本的误差。
代价函数(Cost Function )是定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均。
目标函数(Object Function)定义为:最终需要优化的函数。等于经验风险+结构风险(也就是Cost Function + 正则化项)。
正则化(regularization)
欠拟合 增加特征项: 构造复杂的多项式: 减少正则化参数: 过拟合 增大训练的数据量: 采用正则化方法: Dropout方法: 正则化的作用(1)防止过拟合;
(2)正则化项的引入其实是利用了先验知识,体现了人对问题的解的认知程度或者对解的估计;
正则化策略:以增大训练误差为代价,来减少测试误差(如果在训练误差上很小,可能出现过拟合的情况);
正则化公式非常简单,直接在原来的损失函数基础上加上权重参数的平方和:
以上公式中,表示正则化参数,在算法实际运行过程中,要选择合适的值,不能使其过大,否则可能会导致过拟合不能被消除,或者梯度下降算法不收敛。
正则化(增加模型参数,不要拟合的太真)是一种常用的防止机器学习模型过拟合的技术。过拟合是指模型在训练数据上表现得太好,以至于它不能很好地推广到未见过的数据上。正则化通过引入一个惩罚项来限制模型的复杂度,使得模型在尽可能减小训练误差的同时,也要尽量保持模型的简单。 常见的正则化方法有L1正则化和L2正则化: 1. L1正则化(Lasso回归):L1正则化将模型的参数权重的绝对值之和作为惩罚项。这意味着模型的某些参数可能会变为零,从而使得模型更稀疏,也就是说模型会依赖于更少的特征。这也使得L1正则化具有特征选择的功能。 2. L2正则化(岭回归):L2正则化将模型的参数权重的平方和作为惩罚项。这使得模型的参数会被适度地缩小,但是不太可能变为零。这种方法可以防止模型的参数值过大,导致模型过于敏感。 在损失函数中引入这些正则项,模型在训练时不仅要最小化原始的损失函数(如均方误差、交叉熵等),还要尽量使得模型的复杂度(即参数的大小)保持较小。这种权衡使得模型在减小训练误差的同时,也要考虑模型的复杂度,从而防止过拟合。
正则化的选择和调整是一个重要的调参过程,选择合适的正则化方法和参数可以显著地提高模型的泛化性能。
数学上解释正则化的作用假设我们有一个线性回归模型,其损失函数是均方误差(Mean Squared Error,MSE),表示为: L(θ) = Σ(yi - θ*xi)^2 其中 θ 是模型的参数,xi 是输入,yi 是真实输出,Σ 是对所有训练样本的求和。 现在我们要在这个损失函数中引入一个正则化项。对于L2正则化(岭回归),我们添加的是参数的平方和;对于L1正则化(Lasso回归),我们添加的是参数的绝对值。我们将正则化参数表示为 λ,那么带有L2正则化的损失函数可以表示为: L(θ) = Σ(yi - θxi)^2 + λΣθ^2 带有L1正则化的损失函数可以表示为: L(θ) = Σ(yi - θxi)^2 + λΣ|θ| 现在我们的目标是最小化这个新的损失函数。这意味着我们不仅要使预测值与真实值之间的差异尽可能小,也要使模型的参数尽可能小。因为如果模型的参数较大,那么正则化项就会较大,损失函数就会较大。 这就是正则化如何在数学上鼓励模型保持较小的参数的原理。通过选择合适的正则化参数 λ,我们可以控制模型对拟合数据和保持参数小之间的取舍,从而防止过拟合。 需要注意的是,虽然正则化可以帮助防止过拟合,但如果正则化参数 λ 设置得过大,可能会导致模型过于简单,无法捕捉到数据的复杂性,这就是欠拟合。所以,选择合适的正则化参数是一个重要的任务,通常需要通过交叉验证或其他方式进行。
为什么参数小模型会简单在机器学习中,模型的参数决定了模型的复杂性和拟合能力。参数的数量和大小都会影响模型的复杂性。 考虑一个线性模型的例子,该模型的形式为y = θ0 + θ1x1 + θ2x2 + ... + θn*xn。其中,θi是模型的参数,xi是输入特征。模型的输出y是输入特征和参数的线性组合。
如果参数θi的绝对值很大,那么对应的特征xi就会对模型的输出产生很大的影响。换句话说,模型对这个特征非常“敏感”。这可能会导致模型过于复杂,对训练数据中的噪声或异常值过度敏感,导致过拟合。 相反,如果参数θi的绝对值较小,那么对应的特征xi对模型的输出的影响就较小。这意味着模型对这个特征不那么敏感,模型的复杂性相对较低。 正则化就是通过添加一个与参数大小相关的惩罚项来鼓励模型保持较小的参数。这可以防止模型过于依赖某个或某些特征,使得模型对输入数据的各个方面都有适当的关注,从而提高模型的泛化能力。