第42课:Spark Streaming中checkpoint内幕实现彻底解密
源代码提问:checkpoint源代码修改,适用场景:spark的版本升级,数据恢复。。
高级 spark 人才的判定: 1 在一家顶级的公司做了多年的spark的开发,而且有成果,领导认可 2 为spark提供了bug的改进修复 spark contributor 而且是spark 多个部分的contributor 3 spark内核基础之上,精通某个子框架 如spark sql spark streaming 或图计算。。。
spark streaming 7×24 小时不间断运行,保持容错。checkpoint完成这种实现,把当前运行的状态 保存在容错的存储系统中,一般是hdfs,checkpoint分两种: 1 元数据 metadata checkpoint 程序的配置,如batch duration 业务逻辑,dstream grapth 怎么对数据进行处理 哪些没有处理的数据,突然挂掉了
2 数据本身data checkpoint 如updatestatebykey 将依赖的链条持久化,变成根RDD,出错了就从checkpoint的地方进行恢复。
看一个spark straming src中自带的example
这里第2个参数是传入一个函数