深度解析开源推荐算法框架EasyRec的核心概念和优势

阿里云云栖号发布时间：2021-12-27 17:23:23 ，浏览量：3

简介：如何通过机器学习PAI实现快速构建推荐模型

作者：程孟力 - 机器学习PAI团队

随着移动app的普及，个性化推荐和广告成为很多app不可或缺的一部分。他们在改善用户体验和提升app的收益方面带来了巨大的提升。深度学习在搜广推领域的应用也已经非常深入，并且给各种场景的效果带来了巨大的提升。针对推荐流程的各个阶段，业界已经有很多的模型，这些模型大部分也有开源的实现，但是这些实现通常散落在github的各个角落，其数据处理和特征构造的方式各有差异。如果我们想要在一个新的场景里面应用这些模型，通常需要做比较多的改动:

输入的改造，开源的实现的输入格式和特征构造通常和线上不一致，适配一个算法通常需要1-2周左右的时间，还难免因为对代码的不熟悉引入bug，如果要尝试5个算法的话，就需要5倍的改造时间。如果算法资源有限，这时候是不是就要忍痛割爱，放弃一些可能有效果的尝试了?
开源的实现很多只是在公开数据集上取得了比较好的效果，在公开数据集上的最优参数也不一定适合实际的场景，因此参数调优也需要较大的工作量；有时候效果不好，并不是因为方法不行，而是选的参数不太好。如果没有系统化的调参方法，很多算法也就是简单试一下，没有deep explore，哪来对算法的深入理解呢? 为什么看似简单的改进，你没有能够发现呢? 为什么你也尝试了类似的方向，但是没有搞出来效果呢? 效果通常都是用算力和数不尽的尝试堆出来的；
开源的实现用的是tensorflow 1.4，而线上用的tensorflow 2.3，好多函数的参数都变掉了(此处心里是不是想骂google一百遍，当初信誓旦旦说好的api不再变呢); 很多开源的实现由于没有在实际场景中验证过，所以其可靠性也是存疑的，可能就会少了个dropout，少了一个bn，效果相差甚远；
费了九牛二虎之力把模型效果调好了，发现上线也会有很多问题，比如训练速度太慢、内存占用太大、推理qps跟不上、离线效果好在线效果跪等等。遇到这么多问题，你还有精力去做你的下一个idea吗？你还能斗志昂扬，坚持不懈的去探索新方向吗?

这些问题搞得我们心有余而力不足、天天加班到深夜、不知何时是个头：想要验证一个简单的idea都要使出九牛二虎之力。所谓天下武功，唯快不破，对于搜广推领域的算法同学来说，尤其如此：通过快速迭代才能验证更多的想法，发现更多的问题，找出最优的特征和模型结构。速度慢了的话，可能你的模型还没调好，业务目标就变了，前端的布局也改了，你的业务方可能都不相信你了，你也就没机会上线了。

说到这里，我们的诉求就比较明确了，我们就是想少写代码，甚至不写代码就能验证我们的想法。针对这些问题和诉求，我们推出一个全新的、一步到位的推荐建模框架，致力于帮助大家解决在推荐建模、特征构造、参数调优、部署等方面的问题，让大家少写代码，少干重复的没有意义的脏活累活(这些EasyRec都承包了)，少趟一些坑少踩一些雷(这些EasyRec都替你趟了)，让大家能够快速上线验证新的idea，提升推荐模型的迭代效率。

优势

和其他建模框架相比，EasyRec在以下几个方面具备显著的优势:

支持多平台和多数据源训练

支持的平台包括: MaxCompute(原ODPS), DataScience(基于Kubernete), DLC(deep learning container), Alink, 本地;
支持的数据源包括: OSS, HDFS, HIVE, MaxCompute Table, Kafka, Datahub;
用户通常只需要定义自己的模型，在本地测试通过后，就可以在多种分布式平台上进行训练;

支持多种Tensorflow版本(>=1.12, >m)。在线计算如果采用naive的计算方式，将一次请求展开成n个样本分别进行计算，效率通常是跟不上的。不难发现其中user feature的部分做了比较多的重复计算，对user feature做计算效率的优化，能够显著提升线上的qps。我们结合淘系内部使用的Feature Generation模块做了深度优化，包括内存分配、字符串解析、重复计算消除、多线程并行计算等，在保证一致性的前提下，显著提高了计算的效率。

增量训练和实时训练
增量训练通常能够带来效果的显著提升，原因在于增量训练见过了更多的样本，对embeding部分训练的更加充分。EasyRec支持从上一天的checkpoint restore，然后在新的一天的数据上继续训练。为了快速适应新闻、节假日、大促等场景的样本分布发生快速变化的场景，我们提供了对实时训练的支持。EasyRec通过Blink来构造实时样本和特征，并调用Feature Generation对特征进行加工，然后通过Kafka、DataHub读取实时的样本流进行训练。实时训练的稳定性比较重要，我们在训练过程中对正负样本比、特征的分布、模型的auc等做实时的监控，当样本和特征的分布变化超过阈值时，报警并停止更新模型。保存checkpoint时，EasyRec会同步记录当前训练的offsets(多个worker一起训练时，会有多个offset)，当系统发生故障重启时，会从保存的offsets恢复训练。

效果验证
EasyRec在多个用户场景(20+)中得到了验证，场景中包括商品推荐、信息流广告、社交媒体、直播、视频推荐等。以下是部分客户在他们场景中使用EasyRec取得的提升:
- 某APP广告推送: AUC提升1个点，线上ctr提升4%，资源消耗降低一半;
- 某大型直播APP: 基于EasyRec MultiTower模型AUC提升2%；
- 某大型社交媒体: 基于EasyRec MultiTower模型AUC提升6%，线上效果提升50%；
- 某大型电商平台：基于Easyrec DSSM模型，线上UV价值提升11%, UVCTR提升4%;
- 某短视频APP：基于EasyRec DBMTL模型，线上时长提升30%，+多模态特征进一步提升10%。
最后，EasyRec已经通过github开源(https://github.com/alibaba/EasyRec)，在此欢迎各位同路人共建，包括：丰富各个场景的特征构造，引入更多在实际场景中验证过的模型，提升模型离线在线推理的性能，等等。在这个日益内卷的行业(可以想象tensorflow为什么越做越差，跟内卷应该关系非常大，api的修改比较随意、存在过度设计扩展困难的问题、bug层出不穷，天下苦TF久矣)，我们希望能够通过这样一个开源的工作，形成大家的合力，照亮我们共同的路。在这里，我们也像前辈xgboost致敬，希望这个工作能够像xgboost一样发扬光大，影响深远。

原文链接本文为阿里云原创内容，未经允许不得转载。

关注

打赏

1688896170

查看更多评论

深度解析开源推荐算法框架EasyRec的核心概念和优势

[ 申请 ]友情链接：