第106课: Spark Streaming电商广告点击综合案例黑名单过滤实现
/*王家林老师授课http://weibo.com/ilovepains 每天晚上20:00YY频道现场授课频道68917580*/
识别黑名单用户比在线机器学习退而求其次的做法如下 例如,一段时间内,同一个IP(MAC地址)有多个用户的账户访问 例如,可以统计一天一个用户点击广告的次数,如果一天点击同样的广告操作50的 话,列入黑名单。黑名单有一个重要的特征,动态生成,要考虑时间的因素。所以每 一个batch duration都要考虑是否有新的黑名单加入。此时黑名单需要存储上,可以 存储在数据库/redis里面即可;例如邮件系统中的黑名单,可以采用spark streaming不断监控每个用户的操作,如果用户发送邮件的频率过高,暂时把用户列入黑名单,阻止用户过度频繁发生邮件。
public class AdClickedSteamingStatus {
public static void main(String[] args) {
//第106课: Spark Streaming电商广告点击综合案例黑名单过滤实现
* 广告点击的基本数据格式:timestamp,ip,userID,adID,province,city
时间、ip、用户ID、广告ID,点击广告所在的省、所在的城市
* 至少2条线程,一条线程接受数据,一条处理数据
*每个