您当前的位置: 首页 >  机器学习

凌云时刻

暂无认证

  • 0浏览

    0关注

    1437博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

机器学习落地的五个阶段

凌云时刻 发布时间:2021-07-01 18:59:00 ,浏览量:0

凌云时刻

编者按:机器学习落地是一个很大的课题,业界对此有很多的讨论或争论,本文仅从工程的角度来切入,虽然截至目前未有工业上的有效应用,但是其中一系列成果是很有方向指导意义的。本文作者周育博,花名卜商,蚂蚁集团支付宝服务与内容技术部资深技术专家,负责数字生活业务。

一直以来都有一种声音:机器学习是不是值得?

机器学习落地难,一个模型的训练通常要跨越数个季度,人力物力的投入和其后的运营维护成本巨大,出现过很多质疑的声音。

如今,科学与技术都来到了一个新时代,面对这一问题也可以重新思考。在工程的角度上,我结合自身工作经历,将机器学习落地方法总结为以下几个阶段:

传统方式

应用大规模数据挖掘,产生规则、特征。得益于数据和算力的增强,可以得到优于纯人工的效率。不可讳言,现在绝大多数的应用还是停留在此阶段,主要缺点除了智能程度的欠缺,还有一个最大的问题——不是所有场景都能适用此方式。拆开来说:有数据吗?有label吗?特征抽取有描述意义吗?比人工更经济吗?关键case能覆盖吗?而且项目成败是后验的,失败风险较大。

专家模型

在规定问题和规定数据上,一系列优秀模型不断涌现,将学术界成果迁移到工业上时虽然效果往往会有所下降,但通常也能达到不错的效果。诸如:图像、翻译、语音识别等线上产品都是成功应用,另外有更多强行套用的案例也能做到相对成功。

缺点也是存在,通俗来讲就是:专家不懂业务,业务不懂模型。很多新问题很难得到学术界的支持,甚至对于绝大多数问题第一步的建立经典数据集就不可行。另外,经典数据集与实际任务的区别也是实际存在的。比如,某公司想应用ImageNet的经典模型对billions级别的实体进行分类,结果可想而知。

半自动建模

得益于BERT的成功,Transformer已经风卷残云般的席卷NLP和CV两大领域。其背后的巨大贡献就是,BERT证明了Transformer模型在知识迁移上的卓越能力。

在知识迁移过程中,要求迁移的两端对问题的建模方式达到一致,因此对新问题应用时可以达到半自动建模(通常只需要对模型输出层进行建模)。在工业应用上,将预训练加入生产线,以此将其他领域上的能力赋予新的应用,极大提升机器学习落地的能力半径,使更多的问题得到解决。

半自动训练

其实AutoML的立项要早于Transformer,而最初科研目标是应用CNN网络于ImageNet之上,结果是近乎不了了之。在经历知识迁移的大量成功案例之后,许多困扰问题(如feature engineering)得到了有效解决。

结合了AutoML的新流水线可以极大调高模型训练的自动化程度和模型训练的质量(即便是调参在模型训练过程中也是既重要又专业要求很高的工作),能实现模型训练的半自动化好比进入了热兵器时代,模型的训练过程已经不再依赖于专业的训练有素的专家。

主动学习

之前的几个阶段依然存在着学术界和工业界的很大差异。学术界很多是在规定问题规定数据集上做研究,那么,如何能高效且广泛的应用在工业界解决具体问题?主动学习将模型、数据和人作为流水线的整体,可以将自动化程度从模型训练阶段扩展到数据采集阶段。对于未知的任务未知的问题,都可以应用一套方法论在一套流水线上得以解决,而流水线上的变量缩小为“如何让人对问题进行标注”。 

主要进步包含但不仅限于:

 能力半径:在循环过程中,流水线只需要少量标注作为评估数据和冷启动数据,模型会通过主动提问获取少量的、高质量的、关键的数据,大量无训练数据的任务都能解决和落地。

 可扩展性:这是一套变量极少的系统,可以被重复的应用在各个任务上,通常都能得到超越以往的baseline。

 可靠性:基于半自动建模和半自动训练基础之上构建的流水线,质量已经被反复证明。

 经济性:不仅科学家们从重复的模型训练中被解放出来,工程师也一样得以解放——以打磨升级流水线为目标,而不是在流水线上生产。

未来比如说GPT3引领的风潮“用AI造人”能否达到工业使用的目标还有待时间去检验,但是在第三个阶段(半自动建模)到来之后,机器学习落地就已经不再以季度来计数了,而以周*人、天*人为单位来生产。

在内容为王创新为要的时代,我们要以大量的产品构建应对百态的需求,这也将是AI改变生活的时代。

你可能还想看

1. 大数据实时加工服务的设计及实践 2. 从操作系统层面分析Java IO演进之路 3. 从运维和SRE角度看监控分析平台建设 4. 如何做好一场技术演讲? 5. 空间数据模型之从CAD到BIM

END

每日收获前沿技术与科技洞见

投稿及合作请联系邮箱:lingyunshike@163.com

关注
打赏
1663816507
查看更多评论
立即登录/注册

微信扫码登录

0.0408s