您当前的位置: 首页 >  ar

静静喜欢大白

暂无认证

  • 1浏览

    0关注

    521博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

【模型性能2-泛化产生】Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour

静静喜欢大白 发布时间:2020-06-05 13:16:28 ,浏览量:1

转载https://blog.csdn.net/xxiaozr/article/details/80346381

Abstract:

这篇论文发现,在 ImageNet dataset 上使用 large minibatch 会导致优化困难,但是当这个问题解决了,模型具有更好的泛化能力,并且没有精度上的损失

为达到这个目的,我们提出了 hyper-parameter-free linear scaling rule,用来调整学习率,学习率是有关于 minibatch size 的一个函数,还提出了一个 warmup scheme 用来克服训练早期的优化问题

1 Introduction:

本文目的是介绍 分布式同步 SGD 完成 large-scale training,我们可以将 ResNet-50 从 minibatch size 256 时间 29 hours 缩短到 minibatch size 8192 in 1 hour,获得的精度一样的,如下图

为了解决 large minibatch size,我们提出了一个简单的 hyper-parameter-free linear scaling rule 来调整学习率,为了成功应用此 rule,我们提出了一个新的 warmup strategy. 这个 strategy 在训练的初期使用低的学习率来克服优化困难

关注
打赏
1510642601
查看更多评论
立即登录/注册

微信扫码登录

0.0398s