您当前的位置: 首页 >  ar

段智华

暂无认证

  • 0浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

第42课: Spark Broadcast内幕解密:Broadcast运行机制彻底解密、Broadcast源码解析、Broadcast最佳实践

段智华 发布时间:2017-06-04 10:39:03 ,浏览量:0

第42课:  Spark Broadcast内幕解密:Broadcast运行机制彻底解密、Broadcast源码解析、Broadcast最佳实践

Broadcast在机器学习、图计算、构建日常的各种算法中到处可见。 Broadcast就是将数据从一个节点发送到其它的节点上;例如Driver上有一张表,而Executor中的每个并行执行的Task(100万个Task)都要查询这张表,那我们通过Broadcast的方式就只需要往每个Executor把这张表发送一次就行了,Executor中的每个运行的Task查询这张唯一的表,而不是每次执行的时候都从Driver获得这张表!

JAVA中的Servlet里面有个ServletContext,是JSP或Java代码运行时的上下文,通过上下文可以获取各种资源。Broadcast类似于ServletContext中的资源、变量或数据,Broadcast广播出去是基于Executor的,里面的每个任务可以用上下文,Task的上下文就是Executor,可以抓取数据。这就好像ServletContext的具体作用,只是Broadcast是分布式的共享数据,默认情况下只要程序在运行Broadcast变量就会存在,因为Broadcast在底层是通过BlockManager管理的!但是你可以手动指定或者配置具体周期来销毁Broadcast变量!可以指定Broadcast的unpersist销毁Broadcast变量,因为Spark应用程序中可能运行很多job,可能一个job需要很多Broadcast变量,但下一个job不需要这些变量,但是应用程序还存在,因此需手工销毁Broadcast变量。

Broadcast一般用于处理共享配置文件、通用的Dataset、常用的数据结构等等;但是不适合存放太大的数据在B

关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.0949s