5.5、spark 如何防止内存溢出
driver端的内存溢出
- 可以增大driver的内存参数:spark.driver.memory (default 1g) 这个参数用来设置Driver的内存。在Spark程序中,SparkContext,DAGScheduler都是运行在Driver端的。对应rdd的Stage切分也是在Driver端运行,如果用户自己写的程序有过多的步骤,切分出过多的Stage,这部分信息消耗的是Driver的内存,这个时候就需要调大Driver的内存。
map过程产生大量对象导致内存溢出
- 这种溢出的原因是在单个map中产生了大量的对象导致的,例如:rdd.map(x=>for(i for(i
关注打赏