[论文学习]Online Deep Learning: Learning Deep Neural Networks on the Fly

孑渡发布时间：2022-01-14 15:58:40 ，浏览量：5

@misc{sahoo2017online, title={Online Deep Learning: Learning Deep Neural Networks on the Fly}, author={Doyen Sahoo and Quang Pham and Jing Lu and Steven C. H. Hoi}, year={2017}, eprint={1711.03705}, archivePrefix={arXiv}, primaryClass={cs.LG} }

Abstract

1、DNN + back-propagation需要有完整的训练数据集； 2、提出了对冲反向传播（Hedge Backpropagtion, HBP），与传统在线学习的凸目标函数优化不同，能够取得更好的效果。

Introduction

1、DNN存在问题：梯度消失，特征重用减少，鞍点，巨量的参数需要调整，并且训练过程中内部协变量会变化； 2、DNN需要完整的数据集，而真是情况中数据往往是以数据流的形式发送的； 3、DNN无法应对概念漂移的现象（Concept drifting）； 4、现存Online Learning方法在复杂场景中无法学习复杂的非线性函数的表示； 5、整合深度学习和在线学习，提出了在线深度学习（Online Deep Learning）； 6、模型过于复杂会收敛速度很慢，而模型过于简单的话会限制学习能力； 7、在线环境无法使用验证集做模型选择（即相当于Tokyo之前的那篇human following 的robot采用instance transfer的方法在在线环境下无法使用，关于这篇文章的总结会在之后放出）； 8、本文将每个隐藏层附加为一个输出分类器，拓展了反向传播算法；

Related Work

1、OL直接使用DNN会存在梯度消失、特征重用减少等收敛问题； 2、不同的情况对模型的深浅要求不同； 3、浅层共性在数据量少时效果显著，因为其收敛速度快； 4、功能保留原则能够使得深层网络至少具有浅层网络的学习性能； 5、ResNet等虽然网络深度大，特征表示效果好，但是在线效果差，需要大量时间收敛； 6、本文贡献在于提出了完整的网络模型，能够自动调整网络的有效深度，从而学习基于数据的适当容量的网络；

Online Deep Learning

Problem Setting 1、不失一般性的前置假设，价值不大； Backpropagation: Preliminaries and Limitations 1、小半页篇幅表述DNN以及反向传播，价值不大； 2、HBP 在这里插入图片描述其中，蓝色部分为网络前馈，橙色部分为每层网络经过softmax的分类结果，绿色部分为对冲反向传播的权值更新; 3、HBP实现算法其中，F为总的预测结果，f为各层预测结果，a为各层权重，O为隐藏层的映射，W为前馈计算的权值。则损失函数如下：在这里插入图片描述并根据该损失函数进行更新。其中，a初始化为网络层数倒数，每次更新后都归一化。各参数更新公式如下：其中，b为小于1的底数，因此loss越大说明预测效果越差，权重因此越低，从而实现网络深度的变化；在这里插入图片描述此外，还引入了平滑系数s，避免由于梯度消失导致深层网络训练缓慢，则a更新公式变为如下：完整算法如下：还是比较简单易懂的，作者数学功底很好，因此写的算法也很清晰。唯有Set那行，任意符号后应为l=0,1……L;

Discussion

1、根据性能识别网络深度； 2、为更深的网络提供良好的初始化（只有在预测效果好于浅层网络时，权重才会被加大）； 3、网络各层会竞争合作，从而提高效果； 4、在concept drifting的情况下，HBP网络能够快速适应，而DNN只能缓慢收敛

Experiments

1、在训练最初阶段会略逊于浅层模型，因为需要学习的参数更多； 2、训练最初阶段集中在浅层，最终浅层和最深的权重比例都较低；

总结

本文设计了一种对冲反向传播，是的模型在在线学习的设置下可以在数据流中既具有浅层网络的快速收敛的特性，有不失深层网络的特征提取能力。

英文单词 scalable 可伸缩的 regularizer 正则化 concept drift 概念漂移 merit 优点 saddle point 鞍点 devise 设计 convergence 收敛 hypotheses 假设 amend 修订 elegant 简洁的 hedge backpropagation 对冲反向传播 maximum-margin 最大边际 non-trivial 不平凡的 explicitly 明确地 compatible 可兼容的 emerging 新兴的 intuition 知觉 implicitly 含蓄地 discriminative 有区别的 heuristically 启发式地 incorporate 包含 hyperparameter 超参数 eliminating 消除 reinforcement 增强 without loss of generality 不失一般性 reveal 揭示 feedforward 前馈 cross-entropy 交叉熵 problematic 有问题的 exploit 开发 imperative 必要的 descent 下降 tricky 棘手的 scheme 方案 derivative 导数 alleviate 缓解，减轻 bandit 强盗，土匪 facilitate 促进 ensemble 整体 collaborate 合作 induce 诱导，导致 synthetic 合成的 demonstrate 说明，演示 slightly 稍微的 intermediate 中间的 extensive 大量的

关注

打赏

1688896170

查看更多评论

[论文学习]Online Deep Learning: Learning Deep Neural Networks on the Fly

[ 申请 ]友情链接：