您当前的位置: 首页 >  apache

Bulut0907

暂无认证

  • 0浏览

    0关注

    346博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

Apache Hudi数据湖的Cleaning服务

Bulut0907 发布时间:2022-06-14 09:09:26 ,浏览量:0

目录
  • 1. 介绍
  • 2. Cleaning Retention Policies
  • 3. Run Asynchronously
  • 4. CLI

1. 介绍

默认是自动进行clean,由参数hoodie.clean.automatic设置,表示在每一次commit的时候就clean file slices。推荐设置为true开启该功能

2. Cleaning Retention Policies
  • KEEP_LATEST_COMMITS: 默认的policy,保留最近N次commit
  • KEEP_LATEST_FILE_VERSIONS:保留最近N个file version
3. Run Asynchronously

该参数只有在hoodie.clean.automatic = true时,才有效。默认为同步clean,设置为异步clean方式如下:

hoodie.clean.async=true
4. CLI

CLI为cleaner service提供以下命令:

  • cleans show
  • clean showpartitions
  • cleans run

更多细节参考org.apache.hudi.cli.commands.CleansCommand

关注
打赏
1664501120
查看更多评论
立即登录/注册

微信扫码登录

0.0365s