您当前的位置: 首页 >  大数据

段智华

暂无认证

  • 5浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

大数据Spark “蘑菇云”行动第39课:Spark中的Broadcast和Accumulator机制解密

段智华 发布时间:2016-09-07 20:45:15 ,浏览量:5

大数据Spark “蘑菇云”行动第39课:Spark中的Broadcast和Accumulator机制解密

 

RDD: 分布式私有数据结构; Broadcast:分布式全局只读数据结构; Accumulator:分布式全局只写的数据结构; 在生产环境下,我们几乎一定会自定义Accumulator 1,自定义的时候可以让Accumulator非常复杂,基本上可以是任意类型的Java和Scala对象; 2,在自定义Accumulator的时候,我们可以实现一些“技术福利”,例如在Accumulator变化的时候可以把数据同步到MySQL中;

 

 { { {  * scala> val accum = sc.accumulator(0)  * accum: org.apache.spark.Accumulator[Int] = 0  *  * scala> sc.parallelize(Array(1, 2, 3, 4)).foreach(x => accum += x)  * ...  * 10/09/29 18:41:08 INFO SparkContext: Tasks finished in 0.317106 s  *  * scala> accum.value  * res2: Int = 10  * }}}
 
extends Accumulable[T, T](initialValue, param, name, countFailedValues)

 

 

关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.1436s