第20课:Spark Streaming中动态Batch Size实现初探 1 Batch duration 与Process Time 2 动态Batch size
Spark Streaming中有很多算子,每一个算子不会呈现线性规律, Batch duration处理数据越大,时间不会线性增长。 数据量大,不是加大Batch duration就能解决问题。
一切终端一切媒体都会变成实时交互性分布式流处理的媒体。
一年前看的一篇英文paper,收获很大,学习很多思路,会对流处理有很深刻的认识。
Adaptive Stream Processing using Dynamic Batch Sizing
Tathagata Das University of California Berkeley Yuan Zhong Columbia University Ion Stoica Scott Shenker University of California Berkeley
应liuhui_306 读者的要求,补充了部分内容;
Adaptive Stream Processing using Dynamic Batch Sizing论文思想博大精深,先窥其一二,在以后的学习中再逐步深入了。
这个论文的一个观点是要尽量把batch变小。越小,则越快,也就越安全。任何事物只要足够快,就可以屏蔽掉所有问题。
但在指定时间窗口限制下,对于Batch size调整幅度来说,