您当前的位置: 首页 >  ar

段智华

暂无认证

  • 0浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

Spark集群中Mapper端、Reducer端内存调优

段智华 发布时间:2017-08-20 08:09:35 ,浏览量:0

第23章Spark集群中Mapper端、Reducer端内存调优

本章主要讲解如下内容:

l  Spark集群中Mapper端内存调优最佳实践;

l  Spark集群中Reducer端内存调优最佳实践。

22   

23   

23.1  Mapper端内存调优

本节讲解Spark集群中Mapper端内存使用详解以及性能调优最佳实践。

23.1.1       Spark集群中Mapper端内存使用详解

Spark集群Shuffle分为2部分:Mapper端和Reducer端。本节讲解Spark集群中Mapper端内存使用。Spark集群中的Shuffle是非常重要的,Shuffle的特殊在于我们依赖于所有的数据,RDD的依赖是后面的RDD依赖前面的RDD,当发生Shuffle RDD的时候,Reducer端的RDD的每一个Partition依赖于父RDD的所有的Partition,不是固定依赖于某一个RDD的数据,或者某几个Partition的数据,它的依赖是不确定的,因此是依赖于所有的数据。假如有1百万个Partition,我们不会知道依赖于其中的50万个Parti

关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.0866s