Spark 2.2.1 使用JDBC 操作其他数据库的案例与解读
Spark SQL包括一个数据源,可以从其他数据库使用JDBC读取数据。这个功能优先于使用JdbcRDD。因为它可以直接返回DataFrame,方便在Spark SQL进行处理,也可以很容易地和其他数据源进行Join操作。从Java或Python也更容易使用JDBC数据源,因为它不需要用户提供ClassTag。(注意,这和使用SparkJDBC SQL服务器是不一样的,Spark JDBC SQL服务器允许其他应用程序使用Spark SQL进行查询。
在执行Spark Shell或者Spark Submit命令的时候,需在--driver-class-path配置对应数据库的JDBC驱动的路径。例如:SparkShell上连接Mysql数据库时,需用使用下面的命令。
--driver-class-path/usr/local/apache-hive-1.2.1/lib/mysql-connector-java-5.1.13-bin.jar