第23章Spark集群中Mapper端、Reducer端内存调优
本章主要讲解如下内容:
l Spark集群中Mapper端内存调优最佳实践;
l Spark集群中Reducer端内存调优最佳实践。
22
23
23.1 Mapper端内存调优本节讲解Spark集群中Mapper端内存使用详解以及性能调优最佳实践。
23.1.1 Spark集群中Mapper端内存使用详解Spark集群Shuffle分为2部分:Mapper端和Reducer端。本节讲解Spark集群中Mapper端内存使用。Spark集群中的Shuffle是非常重要的,Shuffle的特殊在于我们依赖于所有的数据,RDD的依赖是后面的RDD依赖前面的RDD,当发生Shuffle RDD的时候,Reducer端的RDD的每一个Partition依赖于父RDD的所有的Partition,不是固定依赖于某一个RDD的数据,或者某几个Partition的数据,它的依赖是不确定的,因此是依赖于所有的数据。假如有1百万个Partition,我们不会知道依赖于其中的50万个Parti