在Online Learning的训练过程中,会存在全新的数据(特征空间不同或特征分布不同)进入模型,此时预测结果就会存在较大的偏差。这种现象称为概念漂移(Concept Drifting)
真实数据如果在特征空间上出现了较大的变化,那么原先模型的预测效果就会大打折扣。当模型学到的模式不再成立时,就会发生概念漂移。
按照概念漂移速度,可以大致分为以下情况:
Sudden: 即相当于突然发生了疫情,那么原先对于市场的预测模型会被瞬间击穿,不具有预测价值。也是我们在思考数据或其他现象时经常会提疫情后时代这个概念。sudden指的是迅速同时又不可逆的改变,强调的是发生的迅速。
incremental: 和gradual都是强调改变发生的缓慢,incremental强调值的随时间改变,gradual则是数据分布的改变。也有些研究者将这两种变化划分为同一类,用incremental gradual这个术语来代替。
recurring: 是一种temporary(临时性)的改变,在一段短时间内会恢复之前的状态。所以也有些研究者将其称为local drift,它不具有周期性,是在不规则的时间间隔内反复转换。
blip: 是代表一种很稀少的事件,它可以被视为一种anomaly或者outlier(异常)。
noise: 是一种随机的改变,通常这种数据会从样本数据中filter out。