您当前的位置: 首页 >  ar

段智华

暂无认证

  • 0浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

第33课:彻底解密Spark 2.1.X中Shuffle 中Mapper端的源码实现

段智华 发布时间:2017-05-10 07:26:46 ,浏览量:0

第33课:彻底解密Spark 2.1.X中Shuffle 中Mapper端的源码实现

本文根据家林大神系列课程编写 http://weibo.com/ilovepains

Spark是MapReduce思想的实现之一,在一个作业中,会把不同的计算按照不同的依赖关系分成不同的Stage,前面的Stage是后面Stage的Mapper,构建的一个有向无环图。我们研究Shuffle,实际上要研究Mapper端怎么实现,Reduce端怎么实现,以及连接Mapper端、Reduce端的过程,思路是非常清楚的。

我们回顾一下MapReduce思想在Spark的具体实现,到底如何进行Shuffle的,主要是根据依赖关系,如果有宽依赖,把我们的Stage进行划分,划分的时候就构成了MapReduce,当然可以有很多的Stage,构建出很多MapReduce的关系。从源码的角度,我们要思考一件事情:我们写Spark业务代码的时候是基于RDD进行编程࿰

关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.0647s