您当前的位置: 首页 > 

段智华

暂无认证

  • 0浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

数据倾斜解决方案之三:使用随机Key实现双重聚合

段智华 发布时间:2017-07-13 06:02:52 ,浏览量:0

数据倾斜解决方案之三:使用随机Key实现双重聚合

本节讲解使用随机Key实现双重聚合,首先讲解什么是随机Key双重聚合;接下来讲解使用随机Key实现双重聚合解决数据倾斜的适用场景、原理分析、案例实战以及使用随机Key实现双重聚合解决数据倾斜注意事项等内容。

30.4.1 什么是随机Key双重聚合?

随机Key双重聚合是指:Spark分布式计算对RDD调用reduceByKey各算子进行计算,使用对Key值随机数前缀的处理技巧,对Key值进行二次聚合:

1、   第一次聚合(局部聚合):对每一个Key值加上一个随机数,执行第一次reduceByKey聚合操作。

2、   第二次聚合(双重聚合):去掉Key值的前缀随机数,执行第二次reduceByKey聚合,最终得到全局聚合的结果。

30.4.2使用随机Key实现双重聚合解决数据倾斜的适用场景分析

适用于groupByKey、reduceB

关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.0872s