您当前的位置: 首页 >  ar

宝哥大数据

暂无认证

  • 0浏览

    0关注

    1029博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

spark目录导图

宝哥大数据 发布时间:2018-06-26 08:41:49 ,浏览量:0

前期工作 scala 一、介绍 1.1、RDD介绍 1.2、缓存策略
  • cache persist, StorageLevel
  • Lineage , 如果Lineage过长,为了容错,就需要进行缓存或者checkpoint
  • 宽窄依赖
  • Spark中控制算子也是懒执行的,需要Action算子触发才能执行,主要是为了对数据进行缓存。  控制算子有三种,cache,persist,checkpoint,以上算子都可以将RDD持久化,持久化的单位是partition。cache和persist都是懒执行的。必须有一个action类算子触发执行。checkpoint算子不仅能将RDD持久化到磁盘,还能切断RDD之间的依赖关系。
1.3、Spark之任务流程和角色
  • job的切分
  • 任务的调度
  • 执行架构
1.4、在Eclipse上调试Spark项目 二、安装
  • 配置HA
  • DAG Visualization 点击之后没有任何反应?, 做各种尝试,都没有作用, 最后发现的确是浏览器问题(换成chrome就可以了)。
  • Ambari上spark2.1.1的Spark History ServerUI无法显示appliation信息, 这个也是浏览器问题
  • spark源码编译
2.1、yarn-cluster 2.2、Spark升级注意事项 三、算子 3.1、算子的使用 四、简单案例 4.1、spark 简单案例
  • WordCount
  • spark pi 原理解析
  • PageRank
  • topN
  • 分组topN
  • Spark的高级排序(二次排序)
  • SortWith与SortBy
4.2、Spark SQL
  • 通过Dataframe作HIve
  • spark向mysql数据库读写数据
  • 用户自定义函数UDF、用户自定义聚合函数UDAF
  • 开窗函数 row_number()
4.3、Spark Streaming
  • sparkSteaming介绍
    • SparkStreaming案例

    • Input DStreams and Receivers

    • 从一个监听端口读取数据流

    • 从kafka中获取数据

  • 算子
    • foreachRDD的正确使用方式
    • 过滤刷广告的用户 transform()的使用
    • UpdateStateByKey
    • Window Operations
    • Spark Streaming中的4种常见操作函数的分析
五、优化 5.1、常规性能调优
  • 5.1.1、并行度
  • 5.1.2、广播变量
  • 一个excetor拷贝一个副本,减少内存开销和网络传输。
  • 5.1.3、kyro序列化
5.2、JVM调优
  • 5.2.1、JVM调优之原理概述以及降低cache操作的内存占比
  • 5.2.2、调节executor堆外内存与连接等待时长
5.3、shuffle调优 5.4、数据倾斜 5.5、如何防止内存溢出 六、问题
  • 问题
  • spark与storm对比
七、项目 Spark源码系列 7.1、电商用户行为分析大数据系统 7.2、推荐系统 7.3、YCLL 八、面试题

Spark面试题系列

关注
打赏
1587549273
查看更多评论
立即登录/注册

微信扫码登录

0.0410s