hbase 查询表-hbase分页查询实现(4-12-75)

更新时间：2024-08-25 分类：HBase 浏览量：2

HBase本文目录一览：

1、HBase为什么火?它适用于那些业务场景
2、Hbase可以用select
3、突破性能瓶颈!ElasticSearch百亿级数据检索优化案例
4、hbase的特点,以及和其他nosql数据库的异同
5、怎样将关系型数据表转换至hbase数据表
6、HBASE之创建表、插入值、表结构查看

HBase为什么火?它适用于那些业务场景

和单机的MySQL，只是查询速度比较慢；而Hive是关系型数据结构，Oracle比较的话，Hive的优点是可以存储海量数据，HBase 速度比 Hive 快了不知道多少。

用户画像比如大型的视频网站，电商平台产生的用户点击行为、浏览行为等等存储在HBase中为后续的智能推荐做数据支撑。

HBase的应用场景日志处理 HBase适用于大规模的日志处理，可以快速地存储和分析海量的日志数据。通过将日志数据按照时间戳进行排序，可以实现高效的日志查询和分析。

Hbase可以用select

1、Hbase是不支持条件查询、聚集操作和Order by查询的！Hbase查询方式只有三种：根据主键，根据主键范围和全表。

2、在行键选择那里，通过用“”，将需要做行键的多个列写在一起就可以了。例如要将a和b列同时做行键，那么--hbase-row-key a，b就可以了。

3、--hbase-row-key id --query select id，name from mysql_order where...-m 1 采用Bulk load装载数据 bulk-load的作用是用mapreduce的方式将hdfs上的文件装载到hbase中，对于海量数据装载入hbase非常有用。

4、select语句是SQL（Structured Query Language）的一部分，它使得程序员可以从数据库中检索、更新、删除等数据操作。

5、select v. 选择，挑选；选定；决定 adj. 精选的，优等的；高级的，奢华的常见句型：用作动词（v.）He selected the village as a base of operation.他选择了该村作为改革基地。

突破性能瓶颈!ElasticSearch百亿级数据检索优化案例

1、默认情况下 routing参数是文档ID （murmurhash3），可通过 URL中的 _routing 参数指定数据分布在同一个分片中，index和search的时候都需要一致才能找到数据，如果能明确根据_routing进行数据分区，则可减少分片的检索工作，以提高性能。

2、索引优化主要是在 Elasticsearch 插入层面优化，如果瓶颈不在这块，而是在产生数据部分，比如 DB 或者 Hadoop 上，那么优化方向就需要改变下。

3、虽然ES 对 gateway 使用 NFS，iscsi 等共享存储的方式极力反对，但是对于较大量级的索引的副本数据，ES 从 5 版本开始，还是提供了一种节约成本又不特别影响性能的方式：影子副本（shadow replica）。

4、写入Lucene 的数据，并不是实时可搜索的，ES 必须通过 refresh 的过程把内存中的数据转换成 Lucene 的完整 segment 后，才可以被搜索。默认1秒后，写入的数据可以很快被查询到，但势必会产生大量的 segment，检索性能会受到影响。

5、权衡建索引的性能和检索的时效性，修改以下参数。倒排词典的索引需要常驻内存，无法GC，需要监控data node上segment memory增长趋势。定期对不再更新的索引做optimize （ES0以后更改为force merge api）。

hbase的特点,以及和其他nosql数据库的异同

分布式nosql，具备了区别mysql的最大亮点：可扩展性。

存储模式：传统数据库中是基于行存储的，而HBase是基于列进行存储的。表字段：传统数据库中的表字段不能超过30个，而HBase中的表字段不作限制。

数据类型单一：Hbase中的数据都是字符串，没有类型。

怎样将关系型数据表转换至hbase数据表

Put API Put API可能是将数据快速导入HBase表的最直接的方法。但是在导入【大量数据】时不建议使用！但是可以作为简单数据迁移的选择，直接写个代码批量处理，开发简单、方便、可控强。

Hive 跑批建表默认第一个字段会作为hbase的rowkey。导入数据将userid插入到列key，作为hbase表的rowkey。

例如要将a和b列同时做行键，那么--hbase-row-key a，b就可以了。

Loader仅支持从 Loader是实现FusionInsightHD与关系型数据库、文件系统之间交换数据和文件的数据加载工具。通过Loader，我们可以从关系型数据库或文件系统中把数据导入HBase或者Hive、HDFS中。

方法1：最基本的数据导入方法。首先通过JDBC将原本关系型数据库中的数据读出到内存中，然后在使用HBase自带的客户端API将数据put到相应的表中。这种方法通用性强，只要写好接口就可以用，但是效率并不高。

HBASE之创建表、插入值、表结构查看

1、与nosql数据库们一样，RowKey是用来检索记录的主键。

2、创建表使用HBaseShell或HBaseAPI可以创建表，需要指定表的名称和列族。例如，创建一个名为student的表，包含一个列族info。插入数据使用Put命令可以向表中插入数据，需要指定行键、列族、列和值。

3、Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。

4、HBase是一个分布式的、面向列的开源数据库，具有高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

栏目

热门阅读

热门标签

hbase 查询表-hbase分页查询实现(4-12-75)

HBase本文目录一览：

HBase为什么火?它适用于那些业务场景

Hbase可以用select

突破性能瓶颈!ElasticSearch百亿级数据检索优化案例

hbase的特点,以及和其他nosql数据库的异同

怎样将关系型数据表转换至hbase数据表

HBASE之创建表、插入值、表结构查看

栏目

热门阅读

热门标签

hbase 查询表-hbase分页查询实现(4-12-75)

HBase本文目录一览：

HBase为什么火?它适用于那些业务场景

Hbase可以用select

突破性能瓶颈!ElasticSearch百亿级数据检索优化案例

hbase的特点,以及和其他nosql数据库的异同

怎样将关系型数据表转换至hbase数据表

HBASE之创建表、插入值、表结构查看

相关推荐