您当前的位置: 首页 >  面试

宝哥大数据

暂无认证

  • 1浏览

    0关注

    1029博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

面试20220803

宝哥大数据 发布时间:2022-08-03 16:48:19 ,浏览量:1

今天面试有些懵逼。。。

1、Flink中的Checkpoint和Spark中的Checkpoint区别

Flink 中的 Checkpoint 主要作用是:容错机制

区别主要有2点:

  • 1、flink更轻量,可以根据时间戳更新state,

    • 因为在Flink中Checkpoint是持久化 全局的状态 state (keyed state 或 Operator state)的快照,在Flink中增量的快照,效率比较高。

    • 对比 Spark : 重量级的快照,Spark每次全量的快照,Flink 每次增量的快照

      • spark是每个批次全量保存
  • 2、在 Flink 中的 Checkpoint 中又仅一次语义概念和用法,而 spark checkpoint 没有仅一次的概念

  • 3、其次 flink 的 checkpoint 有三个状态后端,memery、rocksdb、hdfs,所谓的状态后端就是 checkpoint 的存储位置,在Spark 中 checkpoint 的存储位置一般保存在HDFS,也可以保存至本地磁盘

    • 但是一般情况下,checkpoint在Flink和Spark中保存的位置没太大区别,基本相同,因为生产情况下一般存HDFS
2、flink slot与并行度关系

其中的关系如下:假设集群中有一台master,k台slave节点。 flink-conf.yaml 中有两个重要的参数:

taskmanager.numberOfTaskSlots,The number of task slots that each TaskManager offers. Each slot runs one parallel pipeline.

parallelism.default,The parallelism used for programs that did not specify and other parallelism.

前者指定了每个taskmanager提供的slot个数,后者的指定的程序默认的并行度。两者之间的关系为:

parallelism.default

关注
打赏
1587549273
查看更多评论
0.0391s