您当前的位置: 首页 >  ar

段智华

暂无认证

  • 0浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

第105课: Spark Streaming电商广告点击综合案例在线点击统计实战

段智华 发布时间:2016-05-18 21:16:23 ,浏览量:0

 第105课:  Spark Streaming电商广告点击综合案例在线点击统计实战

/*王家林老师授课http://weibo.com/ilovepains  每天晚上20:00YY频道现场授课频道68917580*/

 

语言选择:Java中大规模项目开发(京东) Scala看Spark源代码

数据来自于kafka 1,复制代码 SparkStreamingonkafkaDirected.java AdClickedSteamingStatus.java 2,大型项目不允许 hard code 硬编码。要配置文件,项目可配置。 topic: AdClicked 3,在线处理广告点击流 广告点击的基本数据格式:timestamp,ip,userID,adID,province,city 时间、ip、用户ID、广告ID,点击广告所在的省、所在的城市 4,统计进来了多少条广告

 

5,计算每隔10秒钟,每隔用户的广告点击量 reducebykey

6,判断有效的点击,复杂化的采用机器学习训练模型进行在线过滤    简单的根据ip判断1天不超过100次;也可以通过一个batch duration的点击次数判断是否非法广告点击,通过一个batch来判断是不完整的,还需要一天的数据也可以每一个小时来判断。  


public class AdClickedSteamingStatus {

	public
关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.0433s