hbase主要用于-hbase适合处理哪些数据(9-2-69)

更新时间：2024-10-31 分类：HBase 浏览量：2

HBase本文目录一览：

1、和单机的MySQL，只是查询速度比较慢；而Hive是关系型数据结构，Oracle比较的话，Hive的优点是可以存储海量数据，HBase 速度比 Hive 快了不知道多少。

2、用户画像比如大型的视频网站，电商平台产生的用户点击行为、浏览行为等等存储在HBase中为后续的智能推荐做数据支撑。

3、HBase的应用场景日志处理 HBase适用于大规模的日志处理，可以快速地存储和分析海量的日志数据。通过将日志数据按照时间戳进行排序，可以实现高效的日志查询和分析。

4、船舶GPS信息，全长江的船舶GPS信息，每天有1千万左右的数据存储。金融方面：消费信息，贷款信息，信用卡还款信息等电商：淘宝的交易信息等，物流信息，浏览信息等移动：通话信息等，都是基于HBase的存储。

5、hbase是从hadoop中分离出来的apache顶级开源项目。由于它很好地用java实现了google的bigtable系统大部分特性，因此在数据量猛增的今天非常受到欢迎。

6、HBase 是 Apache 的 Hadoop 项目的子项目，它不同于一般的关系数据库，而是一个适合于非结构化数据存储的数据库。HBase 分布式数据库具有如下几个显著特点。

非结构化和半结构化数据：HBase可以灵活地存储各种类型的数据，包括文本、图片、音频、视频等非结构化数据，以及JSON、XML等半结构化数据。这些数据在现代应用中越来越常见，而传统的关系型数据库往往难以有效处理。

表、行、列族、列限定符、单元、时间版本。根据查询51cto博客信息显示，hbase模式里的逻辑实体有：表（table）：HBase用表来组织数据，表名是字符串（String），由可以在文件系统路径里使用的字符组成。

HBase采用了类似Google Bigtable的数据模型，即一个稀疏的、分布式的、持久化的多维映射表，每个表都由行键、列族、列限定符和时间戳组成。

1、HBase的应用场景：大型数据存储：HBase可以处理PB级别的数据量，适合存储大规模的数据，例如日志数据、监控数据、交易数据等。时序数据：HBase可以用于存储时序数据，如速度的展示，天气、温度、风速、车流量等。

2、HBase适用于社交网络分析，可以存储和处理大规模的社交网络数据。通过将用户关系存储在HBase中，可以实现高效的社交网络分析和推荐算法。

3、HBase适用于需要高扩展性和高可用性的场景，如大数据分析、日志处理等。它可以处理海量数据，并具备分布式存储和自动数据复制等特性。传统数据库则适用于事务处理和关系型数据的应用场景，如企业管理系统、电子商务平台等。

4、对于hbase当前noSql数据库的一种，最常见的应用场景就是采集的网页数据的存储，由于是key-value型数据库，可以再扩展到各种key- value应用场景，如日志信息的存储，对于内容信息不需要完全结构化出来的类CMS应用等。

5、主要关注的是对数据的统计等方面。适合的场景：hbase：适合大型数据存储，其作用可以类比于传统数据库的作用，主要关注的数据的存取。hive：适合大数据的管理，统计，处理，其作用类比于传统的数据仓库，主要关注的数据的处理。

6、如日志）的批任务处理。而基于HBase的查询，支持和row-level的更新。 Hive提供完整的SQL实现，通常被用来做一些基于历史数据的挖掘、分析。而HBase不适用与有join，多级索引，表关系复杂的应用场景。

HBase采用了列式存储的方式，将数据按列存储，适合存储大规模、稀疏的数据。传统数据库则采用了行式存储，将数据按行存储，适合存储结构化的数据。

hbase使用的是jdk提供的ConcurrentSkipListMap，并对其进行了的封装，Map结构是KeyValue，KeyValue的形式。Concurrent表示线程安全。

数据模型：HBase采用列式存储模型，数据被组织成行和列的形式，每一行都有一个唯一的行键来标识。行键是按照字典顺序排序的，方便进行范围查询。每个列族包含一系列列，列被动态定义，可以根据实际需要灵活增减。

Hbase还有很多特性，比如不支持join查询，但你存储时可以用：parent-child tuple 的方式来变相解决。由于它是Google BigTable的 Java 实现，你可以参考一下：google bigtable 。

HBase采用了类似Google Bigtable的数据模型，即一个稀疏的、分布式的、持久化的多维映射表，每个表都由行键、列族、列限定符和时间戳组成。

Hbase是列存储的非关系数据库。传统数据库MySQL等，数据是按行存储的。其没有索引的查询将消耗大量I/O 并且建立索引和物化视图需要花费大量时间和资源。