Flink 实时去重方案

蔚1 发布时间：2020-02-17 23:30:42 ，浏览量：4

实时去重，一直都是实时领域常见的需求，但是同时也是一个难点。

在本场 Chat 中，会基于 Flink 提供不同的去重方案，深入分析每一种方案的使用方式，并且提供代码参考，会讲到如下内容：

MapState 方式去重
SQL 方式去重
HyperLogLog 方式去重
HyperLogLog 去重优化
bitmap 精确去重

去重计算是数据分析业务里面常见的指标计算，例如网站一天的访问用户数、广告的点击用户数等等，离线计算是一个全量、一次性计算的过程通常可以通过 distinct 的方式得到去重结果，而实时计算是一种增量、长期计算过程，我们在面对不同的场景，例如数据量的大小、计算结果精准度要求等可以使用不同的方案。本篇将会基于 Flink 讲解不同的实现方案：

MapState 方式去重
SQL 方式去重
HyperLogLog 方式去重
Bitmap 精确去重

下面将以一个实际场景为例：计算每个广告每小时的点击用户数，广告点击日志包含：广告位 ID、用户设备 ID(idfa/imei/cookie)、点击时间。

MapState 方式去重

MapState 是 Flink 中 KeyedState 的状态类型，这种方式实现去重是一个精确的去重结果，将设备 ID 保存在 MapState 中。

实现步骤分析

为了当天的数据可重现，这里选择事件时间也就是广告点击时间作为每小时的窗口期划分
数据分组使用广告位 ID+点击事件所属的小时
选择 processFunction 来实现，一个状态用来保存数据、另外一个状态用来保存对应的数据量
计算完成之后的数据清理，按照时间进度注册定时器清理

实现流程

广告数据

case class AdData(id:Int,devId:String,time:Long)

分组数据

case class AdKey(id:Int,time:Long)

主流程

val env=StreamExecutionEnvironment.getExecutionEnvironment  env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)    val kafkaConfig=new Properties()    kafkaConfig.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG,"localhost:9092")    kafkaConfig.put(ConsumerConfig.GROUP_ID_CONFIG,"test1")    val consumer=new FlinkKafkaConsumer[String]("topic1",new SimpleStringSchema,kafkaConfig)    val ds=env.addSource(consumer)      .map(x=>{        val s=x.split(",")        AdData(s(0).toInt,s(1),s(2).toLong)      }).assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor[AdData](Time.minutes(1)) {      override def extractTimestamp(element: AdData): Long = element.time    })      .keyBy(x=>{        val endTime= TimeWindow.getWindowStartWithOffset(x.time, 0,          Time.hours(1).toMilliseconds) + Time.hours(1).toMilliseconds        AdKey(x.id,endTime)      })

指定时间时间属性，这里设置允许 1min 的延时，可根据实际情况调整；时间的转换选择 TimeWindow.getWindowStartWithOffset Flink 在处理 window 中自带的方法，使用起来很方便，第一个参数表示数据时间，第二个参数 offset 偏移量，默认为 0，正常窗口划分都是整点方式，例如从 0 开始划分，这个 offset 就是相对于 0 的偏移量，第三个参数表示窗口大小，得到的结果是数据时间所属窗口的开始时间，这里加上了窗口大小，使用结束时间与广告位 ID 作为分组的 Key。

去重逻辑

自定义 Distinct1ProcessFunction 继承了 KeyedProcessFunction，方便起见使用输出类型使用 Void,这里直接使用打印控制台方式查看结果，在实际中可输出到下游做一个批量的处理然后在输出。

定义两个状态：MapState，key 表示 devId, value 表示一个随意的值只是为了标识，该状态表示一个广告位在某个小时的设备数据，如果我们使用 rocksdb 作为 statebackend, 那么会将 mapstate 中 key 作为 rocksdb 中 key 的一部分，mapstate 中 value 作为 rocksdb 中的 value, rocksdb 中 value 大小是有上限的，这种方式可以减少 rocksdb value 的大小；另外一个 ValueState,存储当前 MapState 的数据量，是由于 mapstate 只能通过迭代方式获得数据量大小，每次获取都需要进行迭代，这种方式可以避免每次迭代。

class Distinct1ProcessFunction extends KeyedProcessFunction[AdKey, AdData, Void] {  var devIdState: MapState[String, Int] = _  var devIdStateDesc: MapStateDescriptor[String, Int] = _  var countState: ValueState[Long] = _  var countStateDesc: ValueStateDescriptor[Long] = _  override def open(parameters: Configuration): Unit = {    devIdStateDesc =

关注

打赏

1688896170

查看更多评论

Flink 实时去重方案

[ 申请 ]友情链接：