您当前的位置: 首页 >  ar

段智华

暂无认证

  • 0浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

第42课:Spark Streaming中checkpoint内幕实现彻底解密(源代码提问:checkpoint源代码修改,适用场景:spark的版本升级,数据恢复。。)

段智华 发布时间:2016-07-16 08:53:45 ,浏览量:0

第42课:Spark Streaming中checkpoint内幕实现彻底解密

 

源代码提问:checkpoint源代码修改,适用场景:spark的版本升级,数据恢复。。

高级 spark 人才的判定: 1 在一家顶级的公司做了多年的spark的开发,而且有成果,领导认可 2 为spark提供了bug的改进修复 spark contributor 而且是spark 多个部分的contributor 3 spark内核基础之上,精通某个子框架 如spark sql  spark streaming 或图计算。。。

 

spark streaming 7×24 小时不间断运行,保持容错。checkpoint完成这种实现,把当前运行的状态 保存在容错的存储系统中,一般是hdfs,checkpoint分两种: 1 元数据 metadata checkpoint   程序的配置,如batch duration   业务逻辑,dstream grapth 怎么对数据进行处理   哪些没有处理的数据,突然挂掉了

2 数据本身data checkpoint   如updatestatebykey 将依赖的链条持久化,变成根RDD,出错了就从checkpoint的地方进行恢复。

看一个spark  straming src中自带的example

这里第2个参数是传入一个函数

关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.0415s