第44课:Spark Streaming之Spark内核回顾思考 1 spark streaming 与spark core 2 spark core思考
一:spark core的数据结构三种:
rdd
broadcast
accumlator
私有的,全局的理解
二:spark 思考
rdd理解是一个数组,是分布式的数组;而hashset、array 就是一个单机版本的结构, rdd平铺在分布式的机器上,和在一台机器上的具体的区别,不同部分位于不同的机器上, 因此必须获取数据的地址,如数组的下标,需要知道在什么机器上,加上了一个机器的维度而已, 所以我们学习RDD,认识RDD,和认识一个数组没有区别。RDD有自己的定位机制,不比一个数组的学习更复杂。
基于rdd的编程和调度 数组:循环遍历、增加、减少,在同一个进程中 RDD:位于不同机器上,因此要到不同机器上去操作,数据不动,代码动的理念。我们清楚知道RDD的数据位置 。http,ftp方式把代码传过去而已。有一个管理的过程,由driver来负责,而数组的操作没有管理,driver主要管理计算。
管理延伸出来的: 1、到不同的具体的机器,任务调度 2、在不同的机器上,容错的方式,出错了,怎么恢复?就像数组出错了,怎么恢复?(缓存,保存) 业界