第15课:spark streaming源码解读之No Receives彻底思考 /* 王家林老师授课http://weibo.com/ilovepains 每天晚上20:00YY频道现场授课频道68917580*/ 1、Direct Acess 2、kafka spark streaming两种方式:Receives以及No Receives No Receives 的优势:语义一致性,更强的控制。spark streaming是计算框架,直接操作数
据来源,更天然,更自然。数据来源类型是RDD类型,推出了一个自定义的RDD,如kafkaRDD。
如访问hase,也需要自定义一个hbaseRDD
No Receives的好处: 缓存: Receives 方式:存在缓存的问题,涉及读取的频率等,容易搞出GC的问题 Direct Acess 方式:没有缓存,不会出现内存溢出。开心吧。
分布式: Receives 方式需要专门配置才能做分布式。Receives 方式不太方便了。 Direct Acess 方式RDD操作,kakfaRDD默认就分布在多个executor上。 计算时天然就是分布
式的
数据消费: Receives 方式,数据来不及处理,delay多次,程序就可能崩溃。 Direct Acess 方式,不存在这个情况。因为是直接读的kakfa数据,delay无所谓