您当前的位置: 首页 >  ar

段智华

暂无认证

  • 0浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

第44课:Spark Streaming之Spark内核回顾思考

段智华 发布时间:2016-07-17 06:47:26 ,浏览量:0

第44课:Spark Streaming之Spark内核回顾思考 1 spark streaming 与spark core 2 spark core思考

一:spark core的数据结构三种:

rdd

 broadcast

 accumlator

私有的,全局的理解

 

二:spark 思考

rdd理解是一个数组,是分布式的数组;而hashset、array 就是一个单机版本的结构, rdd平铺在分布式的机器上,和在一台机器上的具体的区别,不同部分位于不同的机器上, 因此必须获取数据的地址,如数组的下标,需要知道在什么机器上,加上了一个机器的维度而已, 所以我们学习RDD,认识RDD,和认识一个数组没有区别。RDD有自己的定位机制,不比一个数组的学习更复杂。

基于rdd的编程和调度 数组:循环遍历、增加、减少,在同一个进程中 RDD:位于不同机器上,因此要到不同机器上去操作,数据不动,代码动的理念。我们清楚知道RDD的数据位置 。http,ftp方式把代码传过去而已。有一个管理的过程,由driver来负责,而数组的操作没有管理,driver主要管理计算。

管理延伸出来的: 1、到不同的具体的机器,任务调度 2、在不同的机器上,容错的方式,出错了,怎么恢复?就像数组出错了,怎么恢复?(缓存,保存)    业界

关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.0463s