spark目录导图_超级IT网

spark目录导图

宝哥大数据发布时间：2018-06-26 08:41:49 ，浏览量：2

前期工作 scala 一、介绍 1.1、RDD介绍 1.2、缓存策略

cache persist, StorageLevel
Lineage ，如果Lineage过长，为了容错，就需要进行缓存或者checkpoint
宽窄依赖
Spark中控制算子也是懒执行的，需要Action算子触发才能执行，主要是为了对数据进行缓存。控制算子有三种，cache,persist,checkpoint，以上算子都可以将RDD持久化，持久化的单位是partition。cache和persist都是懒执行的。必须有一个action类算子触发执行。checkpoint算子不仅能将RDD持久化到磁盘，还能切断RDD之间的依赖关系。

1.3、Spark之任务流程和角色

1.4、在Eclipse上调试Spark项目二、安装

2.1、yarn-cluster 2.2、Spark升级注意事项三、算子 3.1、算子的使用四、简单案例 4.1、spark 简单案例

4.2、Spark SQL

4.3、Spark Streaming

sparkSteaming介绍
- SparkStreaming案例
- Input DStreams and Receivers
- 从一个监听端口读取数据流
- 从kafka中获取数据
算子
- foreachRDD的正确使用方式
- 过滤刷广告的用户 transform()的使用
- UpdateStateByKey
- Window Operations
- Spark Streaming中的4种常见操作函数的分析

五、优化 5.1、常规性能调优

5.2、JVM调优

5.3、shuffle调优 5.4、数据倾斜 5.5、如何防止内存溢出六、问题

七、项目 Spark源码系列 7.1、电商用户行为分析大数据系统 7.2、推荐系统 7.3、YCLL 八、面试题

Spark面试题系列

关注

打赏

1688896170

查看更多评论

spark目录导图