第108课: Spark Streaming电商广告点击综合案例动态黑名单过滤真正的实现代码
/*王家林老师授课http://weibo.com/ilovepains 每天晚上20:00YY频道现场授课频道68917580*/
在什么时候实现动态黑名单的过滤 动态黑名单过滤代码实战
跟android等其他所有开发相比较,大数据开发的不同点:40%的时间花在性能调优、shuffle、数据倾斜;实际编码的
时间最多占30%,还有30%的时间用在数据建模,数据分析,架构分析,需求分析。
//动态过滤黑名单实现 ,数据在RDD中的,使用transform这个函数, //这个读入的kafka的数据是pair,因此 使用 transformToPair //一个原因是过滤后数据要进行进一步处理,所以必须是读进来的kafka数据的原始类型 //每个batch duration输入的是一个仅仅被一个RDD封装的,你可以有多个InputDstream,但是在产生job的时候, 不同的InputDstream相当于spark基于hdfs操作的不同文件来源而已。
左关联rdd2pair数据(userid,读入的流数据)和黑名单RDD,对于rdd2pair (userid,读入的流数据)的每一个数据, 左关联的结果包含所有键值对pair(k, (v, Some(w))),其中w表示黑名单RDD的值的元素集合,即boo