数据倾斜解决方案之三:使用随机Key实现双重聚合
本节讲解使用随机Key实现双重聚合,首先讲解什么是随机Key双重聚合;接下来讲解使用随机Key实现双重聚合解决数据倾斜的适用场景、原理分析、案例实战以及使用随机Key实现双重聚合解决数据倾斜注意事项等内容。
30.4.1 什么是随机Key双重聚合?随机Key双重聚合是指:Spark分布式计算对RDD调用reduceByKey各算子进行计算,使用对Key值随机数前缀的处理技巧,对Key值进行二次聚合:
1、 第一次聚合(局部聚合):对每一个Key值加上一个随机数,执行第一次reduceByKey聚合操作。
2、 第二次聚合(双重聚合):去掉Key值的前缀随机数,执行第二次reduceByKey聚合,最终得到全局聚合的结果。
30.4.2使用随机Key实现双重聚合解决数据倾斜的适用场景分析适用于groupByKey、reduceB