您当前的位置: 首页 >  算法

Dongguo丶

暂无认证

  • 8浏览

    0关注

    472博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

47深入聚合数据分析_易并行聚合算法,三角选择原则,近似聚合算法

Dongguo丶 发布时间:2021-11-28 18:12:23 ,浏览量:8

1、画图讲解易并行聚合算法:max

有些聚合分析的算法,是很容易就可以并行的,比如说max

image-20211125074454978

有些聚合分析的算法,是不好并行的,比如说,count(distinct),并不是说,在每个node上,直接计算出一些distinct value,就可以的,因为数据可能会很多,不同node上可能有重复的值

image-20211125074653937

对于不易并行的局和分析,es会采取近似聚合的方式,就是采用在每个node上进行近估计的方式,得到最终的结论,

count(distinct),100万,估计在105万/95万 --> 5%左右的错误率 近似估计后的结果,不完全准确,但是速度会很快,一般会达到完全精准的算法的性能的数十倍

2、三角选择原则

精准+实时+大数据 --> 最多选择2个

(1)精准+实时: 没有大数据,数据量很小,那么一般就是单击跑,随便你则么玩儿就可以 (2)精准+大数据:hadoop,批处理,非实时,可以处理海量数据,保证精准,可能会跑几个小时 (3)大数据+实时:es,不精准,近似估计,可能会有百分之几的错误率

3、近似聚合算法

如果采取近似估计的算法:延时在100ms左右,0.5%错误 近似估计的算法:延时在100ms左右,0.5%错误 如果采取100%精准的算法:延时一般在5s~几十s,甚至几十分钟,几小时,但是 0%错误

关注
打赏
1638062488
查看更多评论
立即登录/注册

微信扫码登录

0.0801s