您当前的位置: 首页 >  ar

段智华

暂无认证

  • 0浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

第108课: Spark Streaming电商广告点击综合案例动态黑名单过滤真正的实现代码

段智华 发布时间:2016-05-21 22:17:55 ,浏览量:0

第108课: Spark Streaming电商广告点击综合案例动态黑名单过滤真正的实现代码

/*王家林老师授课http://weibo.com/ilovepains  每天晚上20:00YY频道现场授课频道68917580*/

 

在什么时候实现动态黑名单的过滤 动态黑名单过滤代码实战

跟android等其他所有开发相比较,大数据开发的不同点:40%的时间花在性能调优、shuffle、数据倾斜;实际编码的

时间最多占30%,还有30%的时间用在数据建模,数据分析,架构分析,需求分析。

//动态过滤黑名单实现 ,数据在RDD中的,使用transform这个函数, //这个读入的kafka的数据是pair,因此 使用 transformToPair //一个原因是过滤后数据要进行进一步处理,所以必须是读进来的kafka数据的原始类型 //每个batch duration输入的是一个仅仅被一个RDD封装的,你可以有多个InputDstream,但是在产生job的时候, 不同的InputDstream相当于spark基于hdfs操作的不同文件来源而已。

 

 

 左关联rdd2pair数据(userid,读入的流数据)和黑名单RDD,对于rdd2pair (userid,读入的流数据)的每一个数据, 左关联的结果包含所有键值对pair(k, (v, Some(w))),其中w表示黑名单RDD的值的元素集合,即boo

关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.0392s