hbase 性能测试-hbase测试单元(3-14-99)

更新时间：2024-08-20 分类：HBase 浏览量：3

HBase本文目录一览：

数据查询模式已经确定，且不易改变，就是说hbase使用在某种种特定的情况下，且不能变动。告诉插入，大量读取。因为分布式系统对大量数据的存取更具优势。尽量少的有数据修改。

对象存储：HBase可以作为中等对象存储，对HDFS存储文件起到缓冲过渡的作用，减轻了NAMENODE元数据维护的压力。消息/订单存储：因为HBase提供低延时、高并发的访问能力，所以可以用于电商平台等场景的消息和订单存储。

HBase 不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库.所谓非结构化数据存储就是说HBase是基于列的而不是基于行的模式，这样方面读写你的大数据内容。

这个长尾关键词通常使用在SEO行业和网站优化。在优化标题关键词的过程中，我们可以学会利用长尾关键词优化，有效的避免竞争过大，范围太广泛的热门关键词，从而提高店铺的转化率。比如我们的宝贝为男士短袖衬衫。

所以hbase大多数读要走磁盘，所以读很慢。每次刷写会生成新的Hfile，Hfile很小并且数量多的时候会影响查询的速度。所以要进行合并。

HBase应用举例 Hbase适合需对数据进行随机读操作或者随机写操作、大数据上高并发操作，比如每秒对PB级数据进行上千次操作以及读写访问均是非常简单的操作。淘宝指数是Hbase在淘宝的一个典型应用。

hbase客户端通过rpc调用将put、delete数据请求提交到对应的regionserver，regionserver对请求进行处理，并将数据最终写入hfile中，进行持久化保存。hbase为了保证随机读取的性能，所以hfile里面的rowkey是有序的。

MemStore 无论是对 HBase 的写入还是读取性能都至关重要，其中 flush 操作又是 MemStore 最核心的操作。

HBase将数据分布在多台服务器上，通过水平扩展的方式来应对海量数据的存储需求。它使用了类似于Google的Bigtable的数据模型，将数据按照行和列的方式进行存储，支持快速的随机读写操作。

Hbase有两种运行模式：standalone和distributed。StandaloneMode 默认的运行模式。在该模式下，Hbase不会使用HDFS，而是使用本地文件系统。它在同一个虚拟机中运行所有Hbasedaemon和本地ZooKeeper。

物理模型主要从实现Hbase的角度来讨论 HBase数据模型逻辑结构逻辑上，HBase 的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。

默认，HBase 在创建表的时候，会自动为表分配一个 Region，正处于混沌时期，start-end key 无边界，所有 RowKey 都往这个 Region里分配。

首先Hbase是依赖于HDFS和zookeeper的。 Zookeeper分担了Hmaster的一部分功能，客户端进行DML语句的时候，都是先跟ZK交互。

LSM-Tree模式的设计让hbase的写入性能非常良好，单次写入通常在1-3ms内即可响应完成，且性能不随数据量的增长而下降。region（相当于数据库的分表）可以ms级动态的切分和移动，保证了负载均衡性。

在引擎之上封装了 HBase 的基本 API，用户只需要配置主备机房的 ZK 地址即可，所有的降级熔断逻辑最终封装到 ha-hbase-client 中。

该数据库手动split分区数没变的原因如下：用户没有使用管理员权限，无法对HBase进行操作。HBase集群处于安全模式，无法进行split操作。split表中存在数据，无法进行split操作。

原生HBase不支持索引，而NoSql数据库都把索引的支持作为基础功能来处理。

Hive 的目标是做成数据仓库，所以它提供了SQL，提供了文件－表的映射关系，又由于Hive基于HDFS，所以不提供Update，因为HDFS本身就不支持。

网络延迟。HBase是一个分布式的、面向列的开源数据库，RegionServer是HBase系统中最核心的组件，主要负责用户数据写入、读取等基础操作，没有请求显示，是因为网络延迟，可以重启Regionserver。