您当前的位置: 首页 >  ar

Spark+Scala:数据分析统计

蔚1 发布时间:2018-11-06 11:53:00 ,浏览量:5

本项目适合初学者,订阅该 Chat 前,希望您:

  1. 了解 Scala 语法;
  2. 已经安装好 Logstash(项目中不会讲解 Logstash 的安装);
  3. 知晓 Spark 基本操作,例如:Map、Filter、foreachPartition 等;
  4. 了解 Kafka。

该项目大概架构为:

  1. 利用 Python 生成相对应的文件格式,当做 Demo 日志供程序调用;
  2. 通过 Logstash,筛选出符合要求的数据,并存入 Kafka;
  3. 通过 KafkaUtils.createDirectStream 读取 Kafka 中数据,并进行分析(该处其版本为 Spark-Streaming-Kafka-0-10:2.3.1);
  4. 存入数据库。

本项目模拟分析的文件暂定为统计电视剧的播放量,通过本次例子,希望您可以了解并学会如何统计例如网站到访量分析、广告点击量分析、日常程序 Log 日志分析。

除此之外,本项目还会对日常程序 Log 的日志分析进行讲解,并附带小部分 Python 爬虫知识。

阅读全文: http://gitbook.cn/gitchat/activity/5badfebb524a5b4df6f91c64

您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。

FtooAtPSkEJwnW-9xkCLqSTRpBKX

关注
打赏
1688896170
查看更多评论

蔚1

暂无认证

  • 5浏览

    0关注

    4645博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文
立即登录/注册

微信扫码登录

0.0778s