第99课:使用Spark Streaming 实战对论坛网站动态行为的多维度分析
/* 王家林老师授课http://weibo.com/ilovepains 每天晚上20:00YY频道现场授课频道68917580*/
/** * *第99课:使用Spark Streaming 实战对论坛网站动态行为的多维度分析 * 论坛数据自动生成代码,该生成的数据会作为Producer的方式发送给Kafka,然后SparkStreaming程序会从 * Kafka中在线Pull到论坛或者网站的用户在线行为信息,进而进行多维度的在线分析 * 数据格式如下: * date:日期,格式为yyyy-MM-dd * timestamp:时间戳 * userID:用户ID * pageID:页面ID * chanelID:板块的ID * action:点击和注册 */
生成的用户点击模拟数据如下:
product:2016-05-08 1462679332753 1158 454 Storm View
product:2016-05-08 1462679332753 1532 1444 Impala Register
product:2016-05-08 1462679332753 1771 218 Spark Register
product:2016-05-08 1462679332753 277 476 Storm Register
product:2016-05-08 1462679332753 196