第20课:大数据性能调优的本质和Spark性能调优要点分析我们谈大数据性能调优,到底在谈什么,它的本质是什么,以及 Spark 在性能调优部份的要点,这两点让在进入性能调优之前都是一个至关重要的问题,它的本质限制了我们调优到底要达到一个什么样的目标或者说我们是从什么本源上进行调优。我们先看一下Spark官网的性能优化指南(http://spark.apache.org/docs/latest/tuning.html),包括以下内容:l 数据序列化l 内存调优内存管理内存消耗调整数据结构序列化RDD存储垃圾回收l 其他的考量点:并行度减少任务的内存使用广播大变量数据本地性 Spark官网性能优化指南的内容是冰山一角,我们接下来分析大数据性能调优的本质和Spark性能调优要点分析:(一)大数据性能调优的本质编程的时候发现一个惊人的规律:软件是不存在的。所有编程高手级别的人无论做什么类型的编程,最终思考的都是硬件方面的问题。最终思考的都是硬件在一秒、一毫秒、甚至一纳秒到底是如何运行的,并且基于此进行算法实现和性能调优!最后的时候都回到了硬件。 那么我们回归到问题:大数据性能调优的本质是什么?答案是基于硬件的调优。即基于CPU、Memory、IO(Disk/Network)基础上构建算法和性能调优!无论是就Hadoop还是Spark,还是其它的技术,都无法逃脱。l CPU:计算;l
第20课:大数据性能调优的本质和Spark性能调优要点分析
关注
打赏