您当前的位置: 首页 >  大数据

段智华

暂无认证

  • 3浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

大数据Spark“蘑菇云”项目实战第63课: 广告点击系统高可用性和性能优化 checkpoint wal driver高可用 并行度配置

段智华 发布时间:2016-10-22 21:03:38 ,浏览量:3

 大数据Spark“蘑菇云”项目实战第63课: 广告点击系统高可用性和性能优化

 

1, 对于window、updateStateByKey等DStream的状态操作,采用HDFS的checkpoint机制;
 

61课程:时间函数

62课程: 分层代码

63课程 高可用性 1、checkpoint 存放hdfs 2、 RDD高可用性,WAL  的高可用性  配置      writeAheadLog.enable  true 3、driver的可用性

 Driver的高可用性  val ssc = StreamingContext.getOrCreate(checkpointDirectory,       () => {         createContext(ip, port, outputPath, checkpointDirectory)       }) 4、配置spark streaming的副本  副本用多一点,使用数据本地性 空间换时间

性能优化 1,提升并行度:减少spark.streaming.blockInterval的时间,例如说变成100ms,使用多个DStream并行化接受数据,

spark.default.parallelism 2,如果进行多次filter操作之后需要coalesce

 

关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.1304s