您当前的位置: 首页 >  ar

段智华

暂无认证

  • 0浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

136课: Spark面试经典系列之数据倾斜解决原理和方法总论.

段智华 发布时间:2016-07-03 09:10:35 ,浏览量:0

136课:  Spark面试经典系列之数据倾斜解决原理和方法总论.  1 spark数据倾斜解决的原理总论  2 spark数据倾斜解决方法总论

RDD-钨丝计划-DataFrame-Dataset  数据倾斜后果很严重:OOM、速度慢,不能控制时间   数据倾斜解决原理,讨论:  1、spark基于线程复用,均衡计算、均衡数据  2、key值加上随机前缀  两阶段聚合 局部聚合+全局聚合  3、别只考虑数据量,还要考虑具体数据在具体机器上的计算能力,进行平滑拆分 4、采样倾斜key并分拆join操作  5、去掉shuffle   6、适当提高shuffle操作的并行度  7、根据key值扩大数据规模 膨胀数据   8、reducebykey、join在shuffle之前解决掉,利用广播   9、不要小看spark的数据结构,使用好的数据结构和序列化,编码解码方式,减少数据总量,节省30%的磁盘、内存,要知道GC是spark的死穴   10、将数据放在Tachyon中带来更好的数据本地性,减少网络的Shuffle  11、复用RDD,最小化job的工作,极大的缓解数据倾斜。已有RDD复用可能 30% 80% 100%

关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.0423s