第135课: Spark面试经典系列之数据倾斜:数据倾斜是多么痛?!
1 spark性能真正的杀手
2 数据倾斜是多么痛?!
性能调优层面:
出现jvm oom怎么办?出现数据倾斜怎么办?出现框架问题怎么办?决定spark水平高低的是,怎么进行调优?
数据倾斜不解决的话,性能调优就是一个笑话 1 数据倾斜的直接后果就是程序根本运行不起来了! OOM 速度慢 2 数据倾斜代表spark工程师的水平,数据倾斜的解决意味着对spark运行机制了如指掌
数据倾斜解决以后,性能调优就是硬件加cpu 加内存,根本之道。
数据倾斜:业务热点的二八原则 80% 20% key值
搞定数据倾斜: 对shuffle了如指掌 对业务了如指掌 对硬件cpu了如指掌 对OOM的根本原因了如指掌 OOM一般都是由于数据倾斜所致!GC有很大压力 kafka 直接基于linux 的内核管理,不通