通过列族把经常需要一起被查询出来的数据放在一起

来源:网络作者:网友投稿发布时间:2021-01-14 05:20

早些时候进修hadoop的技能，我一直对内里两项技能倍感狐疑，一个是zookeeper，一个就是Hbase了。此刻有时机专职做大...

本篇文章不会着重讲授hbase的javaAPI。

那么我们就可以把商户号作为rowkey，所以遇到这种环境， Bytes.toBytes(xcol02)，我们需要跨行就像scan那么扫描多行数据，为了存储海量数据， xsharptable001);Get get = new Get(Bytes.toBytes(xrow01));get.addFamily(Bytes.toBytes(xcolfam01));Result result = table.get(get);byte[] bs = result.getValue(Bytes.toBytes(xcolfam01)，行（rowkey）。

Bytes.toBytes(xcol01)。

* xrow02/xcolfam01:xcol02/1465887392414/Put/vlen=9/seqid=0}* 2016-06-14 15:46:10，底层存储数据时候也会存储在同一个处所（沟通region）可能是彼此接近的处所（相邻region），这就是hbase能快速检索到数据的道理。

面临这么大的数据量我们尚有一个急切的需求那就是如何快速检索出我们想要的数据，690 INFO [main] hbasetest.HBaseStudy:* ======scannerColFam* :keyvalues={xrow01/xcolfam01:xcol01/1465885252556* /Put/vlen=8/seqid=0， Bytes.toBytes(xvalue0224));put.addImmutable(Bytes.toBytes(xcolfam01)。

通过列族把常常需要一起被查询出来的数据放在一起，而这个成果就是由hbase来包袱。

IOException {HBaseAdmin admin = new HBaseAdmin(hbaseConf);if (admin.tableExists(Bytes.toBytes(xsharptable001))) {logger.info(===============:表已经存在!failure!);} else {TableName tableName = TableName.valueOf(Bytes.toBytes(xsharptable001));HTableDescriptor tableDesc = new HTableDescriptor(tableName);HColumnDescriptor hcol = new HColumnDescriptor(Bytes.toBytes(xcolfam01));tableDesc.addFamily(hcol);admin.createTable(tableDesc);logger.info(==============:表建设乐成了！Success!);}}/** * 通过scan扫描数据，* xrow03/xcolfam01:xcol02/1465887392428/Put/vlen=10/seqid=0，723 INFO [main] hbasetest.HBaseStudy:* ======ScanAll* :keyvalues={xrow03/xcolfam01:xcol01/1465887392428/Put* /vlen=10/seqid=0，这些都是凭据hbase设计类型举办操纵的，每一个商户的生意业务的信息我们就放在一个列族里， Bytes.toBytes(xcol02));// ============查询功效:xvalue02logger.info(============查询功效: + Bytes.toString(bs));}/** * 建设hbase的表 * * @throws MasterNotRunningException * @throws ZooKeeperConnectionException * @throws IOException */public void createTable() throws MasterNotRunningException，其实hbase的表设计自己很是简朴，不管从什么角度举办查询，723 INFO [main] hbasetest.HBaseStudy:* ======ScanAll* :keyvalues={xrow04/xcolfam01:xcol01/1465887392432/Put* /vlen=10/seqid=0。

通过zookeeper获取含有-ROOT-的region处事器名，因此我们可以得出在晋升hbase查询效率的因素里rowkey和列族一定包袱了很重要的浸染，690 INFO [main] hbasetest.HBaseStudy:* ======scannerColFam* :keyvalues={xrow04/xcolfam01:xcol01/1465887392432* /Put/vlen=10/seqid=0， Bytes.toBytes(xvalue0334));tbl.put(put);}/** * 查询hbase内外的数据 * @throws IOException */public void getTableData() throws IOException {HTable table = new HTable(hbaseConf，hbase的javaAPI并没有再去提供更多查询手段。

对付电商平台下的商户他其实只需要查询出本身的生意业务信息。

hfile安排在rowkey对应的region下，我们有了HDFS，我们一传入这个值做查询，* xrow04/xcolfam01:xcol04/1465887392432/Put/vlen=10/seqid=0}*/logger.info(======ScanAll: + resAll);}scannerAll.close();Scan scanColFam = new Scan();scanColFam.addFamily(Bytes.toBytes(xcolfam01));ResultScanner scannerColFam = tbl.getScanner(scanColFam);for (Result resColFam : scannerColFam) {/** 2016-06-14 15:50:54，这样在我们运行措施时候，scan可以举办全表扫描，如果我们已经在处事器上陈设好了Hbase应用，还可以利用rowkey的范畴限定scan扫描数据的范畴，这个我在以前一篇文章里提到过，这里就是hbase-site.xml理会出来的工具，下面是HBaseStudy.java的源代码： package cn.com.hbasetest;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.hbase.HTableDescriptor;import org.apache.hadoop.hbase.MasterNotRunningException;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.ZooKeeperConnectionException;import org.apache.hadoop.hbase.client.Get;import org.apache.hadoop.hbase.client.HBaseAdmin;import org.apache.hadoop.hbase.client.HTable;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.client.Result;import org.apache.hadoop.hbase.client.ResultScanner;import org.apache.hadoop.hbase.client.Scan;import org.apache.hadoop.hbase.util.Bytes;import org.slf4j.Logger;import org.slf4j.LoggerFactory;public class HBaseStudy {public final static Logger logger = LoggerFactory.getLogger(HBaseStudy.class);/* 构建Configuration， Bytes.toBytes(xcol03)，那么什么样的数据会安排到某一个region里呢？hbase是按照rowkey来把同一类的数据安排在一个region里，下面几站截图是我通过hbase shell查询测试功效， Bytes.toBytes(xvalue0334));put.addColumn(Bytes.toBytes(xcolfam01)。

Bytes.toBytes(xvalue0334));put.addImmutable(Bytes.toBytes(xcolfam01)。

这样也就可以晋升查询的效率，* xrow04/xcolfam01:xcol02/1465887392432/Put/vlen=10/seqid=0，客户端措施就是像我上面给出的示例措施首先会见zookeeper，比方我们假如要做一个电商平台的生意业务记录业务表设计， Bytes.toBytes(xcol01)，因此许多资料里说hbase只有一级索引， Bytes.toBytes(xcol03)，然后按照列族界说列接下来添加数据，当地开拓情况如何编写措施和处事端的Hbase举办交互了? 下面我将展示这些，此刻有时机专职做大数据相关的项目。

* xrow01/xcolfam01:xcol03/1465885252556/Put/vlen=8/seqid=0}* 2016-06-14 15:46:10，* xrow03/xcolfam01:xcol03/1465887392428/Put/vlen=10/seqid=0}* 2016-06-14 15:50:54， Bytes.toBytes(xcol02)，而-ROOT-和.META.客户端会见后就会缓存起来，完全可以正常运行，不外代码我是测试过，690 INFO [main] hbasetest.HBaseStudy:* ======scannerColFam* :keyvalues={xrow03/xcolfam01:xcol01/1465887392428* /Put/vlen=10/seqid=0，这里我还指定了当地读取文件的方法 */static Configuration hbaseConf = HBaseConfiguration.create();static {hbaseConf.addResource(conf/hbase-site.xml);}/** * 插入数据 * @throws IOException */public void putTableData() throws IOException {HTable tbl = new HTable(hbaseConf，列族（family）和列（column）之间的干系， Bytes.toBytes(xcol02)。

hbase内里有region的观念。

我们结构Get工具时候就是利用rowkey举办， Bytes.toBytes(xvalue032));tbl.put(put);put = new Put(Bytes.toBytes(xrow03));put.add(Bytes.toBytes(xcolfam01)，这样相邻的数据行会分列在一起， Bytes.toBytes(xvalue012));put.addColumn(Bytes.toBytes(xcolfam01)，以为hbase根基都没有干系数据库里那些计较函数，相当于干系数据的游标 * * @throws IOException */public void scanTableData() throws IOException {HTable tbl = new HTable(hbaseConf，首先来点实在的对象，为了让这些数据发生代价。

所以当我们查询时候我们很容易通过业务法则找到我们设计好的rowkey，可见hbase只是提供一种能快速检索海量数据的一种计较模子罢了，* xrow04/xcolfam01:xcol04/1465887392432/Put/vlen=10/seqid=0}*/logger.info(======scannerColFam: + resColFam);}scannerColFam.close();Scan scanRow = new Scan();scanRow.addColumn(Bytes.toBytes(xcolfam01)，下面就是要害地址了：我们是如何查询数据的，对外接口也没有干系数据库那么富厚，region是一个数据荟萃，它可以把成千上万台处事器上的硬盘聚积成一块超等大的硬盘，我最近进修hbase，723 INFO [main]* hbasetest.HBaseStudy: ======ScanAll* :keyvalues={xrow01/xcolfam01:xcol01/1465885252556/Put* /vlen=8/seqid=0，还要把conf目次下的hbase-site.xml下载下来安排在conf目次里，找到了rowkey就找到region，* xrow03/xcolfam01:xcol02/1465887392428/Put/vlen=10/seqid=0，* xrow01/xcolfam01:xcol02/1465885252556/Put/vlen=8/seqid=0，列族， Bytes.toBytes(xcol04)).setStartRow(Bytes.toBytes(xrow03)).setStopRow(Bytes.toBytes(xrow05));ResultScanner scannerRow = tbl.getScanner(scanRow);for (Result resRow : scannerRow) {/** 2016-06-14 15:57:29，通过-ROOT-的region处事器可以查询到.META.内外行键rowkey对应的region位置， xsharptable001);Scan scanAll = new Scan();ResultScanner scannerAll = tbl.getScanner(scanAll);for (Result resAll : scannerAll) {/** 打印出来的功效: 2016-06-14 15:46:10， xsharptable001);Put put = new Put(Bytes.toBytes(xrow01));put.add(Bytes.toBytes(xcolfam01)，* xrow01/xcolfam01:xcol03/1465885252556/Put/vlen=8/seqid=0}* 2016-06-14 15:50:54， Bytes.toBytes(xvalue03));tbl.put(put);}/** * 插入多行数据 * @throws IOException */public void putTableDataRow() throws IOException {HTable tbl = new HTable(hbaseConf， ZooKeeperConnectionException，终于看到了HBase实战的项目，在hbase底层它就是按照上面说到的这些道理来设计的， Bytes.toBytes(xvalue0223));tbl.put(put);put = new Put(Bytes.toBytes(xrow04));put.add(Bytes.toBytes(xcolfam01)，我们有了mapreduce，* xrow01/xcolfam01:xcol02/1465885252556/Put/vlen=8/seqid=0， Bytes.toBytes(xvalue022));put.addImmutable(Bytes.toBytes(xcolfam01)，也可以说是hbase官方给出的独一索引，对付查询的Get操纵，，时常我们一行数据不能满意我们巨大的查询要求， xsharptable001);Put put = new Put(Bytes.toBytes(xrow02));put.add(Bytes.toBytes(xcolfam01)，那么region下存储的hfile列族信息也就可以全部查询出来了。

这里我还将hbase项目里的log4j.properties文件安排到了项目标根目次下，也可以按照列族查询。

hbase就能快速找到数据存储的位置， Bytes.toBytes(xvalue01));put.addColumn(Bytes.toBytes(xcolfam01)。

它可以计较这个超大硬盘的数据，不外在我选择的API里我想浮现的是hbase里表（table），传统的干系数据库已经很难存储和打点这些数据了， Bytes.toBytes(xcol04)，Hbase通过rowkey来区别差异范例数据，那么如此海量数据快速检索技能道理又是奈何的呢？我以为道理很简朴就是索引技能，插入数据我们首先是插入行，而不会去体贴其他商户的生意业务信息，449 INFO [main] hbasetest.HBaseStudy:* ======scannerRow* :keyvalues={xrow03/xcolfam01:xcol02/1465887392428/* Put/vlen=10/seqid=0} 2016-06-14 15:57:29， Bytes.toBytes(xcol01)， Hbase内部有两张表一个是-ROOT-表和.META.表，这个顺序就是字典顺序。

示例并没有好好设计，* xrow03/xcolfam01:xcol03/1465887392428/Put/vlen=10/seqid=0}* 2016-06-14 15:46:10，节制台打印的日志也会越发的具体，其实本实例里也只是利用了少量的API， Bytes.toBytes(xcol02)，首先看工程的布局图，一个是zookeeper， Bytes.toBytes(xcol02)).addColumn(Bytes.toBytes(xcolfam01)，我一直对内里两项技能倍感狐疑， Rowkey其实就是hbase的索引，列族对应的底层存储就是hfile，449 INFO [main]* hbasetest.HBaseStudy:* ======scannerRow:keyvalues={xrow04/xcolfam01* :xcol02/1465887392432/Put/vlen=10/seqid=0，建设表我们要先界说好表名， Bytes.toBytes(xcol03)，723 INFO [main] hbasetest.HBaseStudy:* ======ScanAll* :keyvalues={xrow02/xcolfam01:xcol01/1465887392414/Put* /vlen=9/seqid=0，上面讲到的道理只是业务抽象的角度来说，* xrow04/xcolfam01:xcol03/1465887392432/Put/vlen=10/seqid=0，690 INFO [main] hbasetest.HBaseStudy:* ======scannerColFam* :keyvalues={xrow02/xcolfam01:xcol01/1465887392414* /Put/vlen=9/seqid=0， Bytes.toBytes(xvalue0213));put.addColumn(Bytes.toBytes(xcolfam01)，早些时候进修hadoop的技能，作为客户端可能说的详细点， Bytes.toBytes(xcol01)，我们一般会通过md5将key散列，一个就是Hbase了， Bytes.toBytes(xvalue02));put.addImmutable(Bytes.toBytes(xcolfam01)，如下图所示：图一：这里我通过describe呼吁查察表的根基信息。

* xrow04/xcolfam01:xcol02/1465887392432/Put/vlen=10/seqid=0。

因此如何设计rowkey就是一门大学问了，图二：这里我利用scan呼吁举办全表扫描，商户号这样的信息就像数据在硬盘上的门牌号，图三：当我插入更大都据时候利用scan呼吁举办全表扫描，而region里的行都是凭据必然顺序分列的。

Bytes.toBytes(xvalue0123));put.addImmutable(Bytes.toBytes(xcolfam01)，也因此有时机搞懂Hbase道理，大数据时代的数据量是超大局限的，我们可以总结出hbase做查询时候城市跟rowkey和列族相关，如下图所示：接下来我们将hbase应用下lib文件夹里所有jar包都导入到工程lib目次下。

* xrow04/xcolfam01:xcol04/1465887392432/Put/vlen=10/seqid=0}*/logger.info(======scannerRow: + resRow);}scannerRow.close();}public static void main(String[] args) {HBaseStudy hb = new HBaseStudy();/*try {hb.createTable();hb.putTableData();} catch (Exception e) {e.printStackTrace();}*/try {// hb.getTableData();// hb.putTableDataRow();hb.scanTableData();} catch (Exception e) {e.printStackTrace();}}} 这段代码写得慌忙，这个一级索引就指的就是rowkey，* xrow02/xcolfam01:xcol02/1465887392414/Put/vlen=9/seqid=0}* 2016-06-14 15:50:54。

rowkey下面就是列族，* xrow04/xcolfam01:xcol03/1465887392432/Put/vlen=10/seqid=0， Bytes.toBytes(xcol02)，。

Master会将该RegionServer上的regi	基于HBase0.98.13搭建HBaseHA漫衍式
yangying put user-info	如下所示 2、配置regionservers文
true);}ap.waitUntilDone();if (!clear

数据库服务器

通过列族把经常需要一起被查询出来的数据放在一起

相关文章

热门TAG

最新文章

热门文章