前期工作
scala
一、介绍
1.1、RDD介绍
1.2、缓存策略
- cache persist, StorageLevel
- Lineage , 如果Lineage过长,为了容错,就需要进行缓存或者checkpoint
- 宽窄依赖
- Spark中控制算子也是懒执行的,需要Action算子触发才能执行,主要是为了对数据进行缓存。 控制算子有三种,cache,persist,checkpoint,以上算子都可以将RDD持久化,持久化的单位是partition。cache和persist都是懒执行的。必须有一个action类算子触发执行。checkpoint算子不仅能将RDD持久化到磁盘,还能切断RDD之间的依赖关系。
- job的切分
- 任务的调度
- 执行架构
- 配置HA
- DAG Visualization 点击之后没有任何反应?, 做各种尝试,都没有作用, 最后发现的确是浏览器问题(换成chrome就可以了)。
- Ambari上spark2.1.1的Spark History ServerUI无法显示appliation信息, 这个也是浏览器问题
- spark源码编译
- WordCount
- spark pi 原理解析
- PageRank
- topN
- 分组topN
- Spark的高级排序(二次排序)
- SortWith与SortBy
- 通过Dataframe作HIve
- spark向mysql数据库读写数据
- 用户自定义函数UDF、用户自定义聚合函数UDAF
- 开窗函数 row_number()
- sparkSteaming介绍
-
SparkStreaming案例
-
Input DStreams and Receivers
-
从一个监听端口读取数据流
-
从kafka中获取数据
-
- 算子
- foreachRDD的正确使用方式
- 过滤刷广告的用户 transform()的使用
- UpdateStateByKey
- Window Operations
- Spark Streaming中的4种常见操作函数的分析
- 5.1.1、并行度
- 5.1.2、广播变量
- 一个excetor拷贝一个副本,减少内存开销和网络传输。
- 5.1.3、kyro序列化
- 5.2.1、JVM调优之原理概述以及降低cache操作的内存占比
- 5.2.2、调节executor堆外内存与连接等待时长
- 问题
- spark与storm对比
Spark面试题系列