您当前的位置: 首页 >  hbase

宝哥大数据

暂无认证

  • 1浏览

    0关注

    1029博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

HBase应用程序开发04---案例

宝哥大数据 发布时间:2017-04-03 22:47:49 ,浏览量:1

Hbase与RDBMS的区别在于:HBase的Cell(每条数据记录中的数据项)是具有版本描述的(versioned),行是有序的,列(qualifier)在所属列簇(Column families)存在的情况下,由客户端自由添加。以下的几个因素是Hbase Schema设计需要考虑的问题:1、 Hbase中没有joins的概念

大表的结构可以使得不需要joins,而解决这一问题。   注意:HBase中没有join的概念,但是,大表的结构可以使其不需要Join操作就能解决Join操作所解决的问题。

###2、Row keys 设计   主键,在Region里按字母顺序来排序(byte数组存储)。

  写入要分散,如订单表: order_id做逆排序后做rowkey,以便分布式存储,避免数据只保存在个别节点上。   多条件查询时,设为组合row key

  注:读取数据只能按row key(及其range)或scan全表扫描,确保查询高效 ###3、列族CF设计

  尽量少,建议CF数量在1-2个。   设计Hbase schema的时候,要尽量只有一个column family。   flush和compaction触发的基本单位都是Region级别。当一个CF有大量的数据的时候会触发整个region里面的其他CF的memstore(其实这些memstore可能仅有少量的数据,还不需要flush的)也发生flush动作;   另外compaction触发的条件是当store file的个数(不是总的store file的大小)达到一定数量的时候会发生,而flush产生的大量store file通常会导致compaction,flush/compaction会发生很多IO相关的负载,这对Hbase的整体性能有很大影响,所以选择合适的column family个数很重要。

一、建立学生表和课程表 需求:学生可以选择多个课程,每个课程可以被多个学生选择。  查询某个学生所选的所有课程列表。  查询某个课程的学生列表。  学生可以修改所选的课程。

表的设计 这里写图片描述

关注
打赏
1587549273
查看更多评论
立即登录/注册

微信扫码登录

0.0422s