第105课: Spark Streaming电商广告点击综合案例在线点击统计实战
/*王家林老师授课http://weibo.com/ilovepains 每天晚上20:00YY频道现场授课频道68917580*/
语言选择:Java中大规模项目开发(京东) Scala看Spark源代码
数据来自于kafka 1,复制代码 SparkStreamingonkafkaDirected.java AdClickedSteamingStatus.java 2,大型项目不允许 hard code 硬编码。要配置文件,项目可配置。 topic: AdClicked 3,在线处理广告点击流 广告点击的基本数据格式:timestamp,ip,userID,adID,province,city 时间、ip、用户ID、广告ID,点击广告所在的省、所在的城市 4,统计进来了多少条广告
5,计算每隔10秒钟,每隔用户的广告点击量 reducebykey
6,判断有效的点击,复杂化的采用机器学习训练模型进行在线过滤 简单的根据ip判断1天不超过100次;也可以通过一个batch duration的点击次数判断是否非法广告点击,通过一个batch来判断是不完整的,还需要一天的数据也可以每一个小时来判断。
public class AdClickedSteamingStatus {
public