分区简介
Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。分区表实际上对应一个HDFS文件系统上的文件夹,该文件夹下是该分区的数据文件。
HIVE的分区通过在创建表时启用partition by实现,具体分区的标识是插入内容时指定的。当要查询某一分区的内容时可以采用where语句,通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。
示例:
- 准备数据 在Linux的/usr/local/test目录下面创建如下三个文件
- stu1.txt: zhangsan 13 male shiziBan lisi 14 female musicBan wanger 19 male musicBan mazi 15 male shiziBan
- stu2.txt: qianwu 12 female wudaoBan zhaoliu 16 female shiziBan lisi 18 male wudaoBan xiangming 13 female shiziBan
- stu3.txt: wangwei 18 female wudaoBan ligang 10 male musicBan
- 导入数据
二级分区指是2个分区字段 示例: 第一步:创建二级分区表: 第二步:导入数据
第三步:查询数据
- 创建目录并上传文件
- 修复之后才能查询到数据
- 创建目录、上传数据
- 添加分区后查询
- 创建文件夹
- load数据到分区
- 查询