hbase写入数据过程-读hbase表写入hbase(2-1-92)

更新时间：2024-06-18 分类：HBase 浏览量：2

HBase本文目录一览：

1、生成HFile文件 Bulk Load的第一步会执行一个Mapreduce作业，其中使用到了HFileOutputFormat输出HBase数据文件：StoreFile。HFileOutputFormat的作用在于使得输出的HFile文件能够适应单个region。

2、对于写操作，HBase提供了Put操作。一个Put操作就是一次写操作，它将指定Row Key的数据写入到HBase中。

3、MapReduce可以用于对HBase中的数据进行复杂的数据分析和数据挖掘，这是通过读取HBase中的数据传递给Map阶段进行处理来实现的。

4、HBase可以启动MapReduce工作。根据查询相关公开信息，HBase是一个分布式的NoSQL数据库系统，它可以与MapReduce结合使用，可以在分布式环境中运行MapReduce任务。

5、当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。

HBase是一个基于Hadoop的分布式、可扩展的大数据存储系统，其读写操作是基于其底层的HDFS（Hadoop Distributed File System）进行的，同时利用MapReduce进行数据处理。

同时可以读写HBase root目录下的所有文件，假设这个账号为：hbase_srv 权限设置通过MapReduce任务生成HFile，HFile文件的owner为u_mapreduce。 u_load需要HFile文件以及目录的读、写权限。

Hbase的读比写慢。 Hbase命名空间下有一张元数据表meta表和namespace表。meta表里面保存了要操作的表所在的位置等元数据。（1）首先客户端向zk请求元数据表所在的RegionServer，zk返回给客户端meta表所在的regionServer。

这里的高可用并不是指HBase本身的高可用机制。而是HBase主备双服务的高可用，线上业务依赖于主备HBase集群来提供数据支持，主集群首要的任务时负责数据的读写，备集群只是为了容灾。

看看如何在本机单测debug吧本系列将围绕以上几点展开，篇幅较长，如果是HBase初学者建议边读边练，对于HBase比较熟练的，可以选读下，比如关注下HBase的MapReduce及其测试方法。

所以hbase大多数读要走磁盘，所以读很慢。每次刷写会生成新的Hfile，Hfile很小并且数量多的时候会影响查询的速度。所以要进行合并。

HDFS不太适合做大量的随机读应用，但HBASE却特别适合随机的读写个人理解：数据库一般都会有一层缓存，任何对数据的更改实际上是先更改内存中的数据。然后有异步的守护进程负责将脏页按照一定策略刷新到磁盘空间中去。

Hbase数据是按列存储-每一列单独存放。列存储的优点是数据即是索引。访问查询涉及的列-大量降低系统I/O 。并且每一列由一个线索来处理，可以实现查询的并发处理。基于Hbase数据类型一致性，可以实现数据库的高效压缩。

hbase为了保证随机读取的性能，所以hfile里面的rowkey是有序的。当客户端的请求在到达regionserver之后，为了保证写入rowkey的有序性，所以不能将数据立刻写入到hfile中，而是将每个变更操作保存在内存中，也就是metastore中。

和读相比，HBase写数据流程倒是显得很简单：数据先顺序写入HLog，再写入对应的缓存Memstore，当Memstore中数据大小达到一定阈值（128M）之后，系统会异步将Memstore中数据flush到HDFS形成小文件。

Put API Put API可能是将数据快速导入HBase表的最直接的方法。但是在导入【大量数据】时不建议使用！但是可以作为简单数据迁移的选择，直接写个代码批量处理，开发简单、方便、可控强。

将数据导入HBase中有如下几种方式：使用HBase的API中的Put方法使用HBase 的bulk load 工具使用定制的MapReduce Job方式使用HBase的API中的Put是最直接的方法，用法也很容易学习。

方法1：最基本的数据导入方法。首先通过JDBC将原本关系型数据库中的数据读出到内存中，然后在使用HBase自带的客户端API将数据put到相应的表中。这种方法通用性强，只要写好接口就可以用，但是效率并不高。

对表的创建、删除、显示以及修改等，可以用HBaseAdmin，一旦创建了表，那么可以通过HTable的实例来访问表，每次可以往表里增加数据。

导入 ./hbase org.apache.hadoop.hbase.mapreduce.Driver import 表名数据文件位置其中数据文件位置可为本地文件目录，也可以分布式文件系统hdfs的路径。