第1课:通过案例对SparkStreaming 透彻理解三板斧之一 在流处理时代,SparkStreaming有着强大吸引力,而且发展前景广阔,加之Spark的生态系统,Streaming可以方便调用其他的诸如SQL,MLlib等强大框架,它必将一统天下。这里选择Spark Streaming作为版本定制的切入点也是大势所趋。
将Batch interval放大,相当于看到了Streaming的慢放版本,可以更清楚它的各个环节,这里以黑名单过滤程序为例,进行试验
整个OnlineBlackListFilter应用也就2分钟,而数据接收器receiver 运行了1.5分钟 ,receiver一直不断在接收数据,启动receiver是一个job。receiver在一个work上 运行,receiver跟普通的job没有什么区别,为后续的job做准备。复杂程序有多个 job,receiver是写复杂程序的黄金切入点。
receiver的PROCESS_Local是内存节点,直接使用内存中的数据。receiver是1个executor,处理数据是4个executor
spark-submit其实只有一个作业,但是web ui显示里面有很多job的