一、Spark3.0 简介
Spark3.0版本包含了3400多个补丁程序,是开源社区做出巨大贡献的最高峰,带来了Python和SQL功能的重大进步,并着眼于探索和生产的易用性。
1、Spark3.0新功能(1)通过自适应查询执行,动态分区修剪和其他优化,与Spark2.4相比,TPC-DS的性能提高了2倍
(2)符合ANSI SQL
(3)pandas API有重大改进,包括Python类型提示和其他pandas UDF
(4)更好的Python错误处理,简化了PySpark异常
(5)用于structured streaming新的UI界面
(6)使用R语言UDF函数,速度提高40倍