1、 Spark SQL的运行过程
接下来我们看一下Spark SQL的运行过程,Spark SQL 的运行架构如图 27- 2所示:
图 27- 2 SQL 的运行架构
通过初步解析不同来源的数据变为UnresolvedLogical Plan(此过程会提取关键字,检查基本的语法,如果有问题下一步直接不能运行),进一步解析语法树生成Logical Plan,进行CombineFilters,CombineLimits等优化策略-,产生Physical Plan,把需要执行的操作转换为spark可以真正执行的RDD。
先概括一下,其执行流程是:
Parse SQL -> Analyze Logical Plan -> OptimizeLogical Plan -> Generate Physical Plan ->Prepareed Spark Plan ->Execute SQL -> Generate RDD
SQLContext里对SQL的一个解析和执行流程:
1. 第一步Parse SQL (SQL: String),simple SQL parser做词法语法解析,生成