Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递。利用Sqoop可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
Sqoop2的最新版本是1.99.7。请注意,2与1不兼容,且特征不完整,它并不打算用于生产部署。
Sqoop将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。
Sqoop官网:http://sqoop.apache.org/
安装注意:前提是已经安装好Java和Hadoop环境。
1.下载上传解压- 下载地址:http://www.apache.org/dyn/closer.lua/sqoop/1.4.7
- 上传安装包到虚拟机中
- 解压sqoop安装包到指定目录
Sqoop的配置文件与大多数大数据框架类似,在sqoop根目录下的conf目录中。
- 重命名配置文件 $ mv sqoop-env-template.sh sqoop-env.sh
- 修改配置文件 sqoop-env.sh export HADOOP_COMMON_HOME=/usr/local/hadoop3.1.2/hadoop-standalone export HADOOP_MAPRED_HOME=/usr/local/hadoop3.1.2/hadoop-standalone export HIVE_HOME=/usr/local/apache-hive-3.1.1 #export HBASE_HOME=/usr/local/hbase-2.1.3 #export ZOOKEEPER_HOME=/usr/local/zookeeper-3.4.13-standalone #export ZOOCFGDIR=/usr/local/zookeeper-3.4.13-standalone
注:上面Hadoop是必需的,其它可以根据需要进行配置。 关联Hbase时,如果报错“找不到或无法加载类GetJavaProperty”,可以参考博客:HBase报错:找不到或无法加载主类 org.apache.hadoop.hbase.util.GetJavaProperty
3.拷贝JDBC驱动拷贝jdbc驱动到sqoop的lib目录下:
我们可以通过bin/sqoop help来验证sqoop配置是否正确:
$ bin/sqoop list-databases --connect jdbc:mysql://hcmaster:3306/ --username root --password root