hbase查数据量-hbase统计数量计算速度(3-1-98)

更新时间：2024-08-24 分类：HBase 浏览量：2

HBase本文目录一览：

1、访问HBASE table中的行，只有三种方式：通过单个RowKey访问、通过RowKey 的range（正则）、全表扫描。

2、有时候我们需要统计HBase表的行数，一般要么是写MR程序，要么是写SQL。

3、Fay Chang 所撰写的Google论文。访问hbase数据库表中的行一共有三种方式，分别是：通过单个行健访问、通过一个行健的区间来访问、全表扫描。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

4、Hbase是不支持条件查询、聚集操作和Order by查询的！Hbase查询方式只有三种：根据主键，根据主键范围和全表。

5、例如，假设我们有一个存储用户信息的HBase表，它有两个列族：基本信息（包含姓名、年龄等）和联系信息（包含电子邮件和电话号码）。在面向行的存储方式中，每个用户的所有信息都会存储在一起。

6、KeyValue的形式。Concurrent表示线程安全。而HBase中的数据存储是基于列族（column family）和行键（row key）的，HBase的数据存储结构是按行键排序的有序映射表，可以通过行键的前缀匹配来检索数据。

HBase的应用场景：大型数据存储：HBase可以处理PB级别的数据量，适合存储大规模的数据，例如日志数据、监控数据、交易数据等。时序数据：HBase可以用于存储时序数据，如速度的展示，天气、温度、风速、车流量等。

HBase适用于需要高扩展性和高可用性的场景，如大数据分析、日志处理等。它可以处理海量数据，并具备分布式存储和自动数据复制等特性。传统数据库则适用于事务处理和关系型数据的应用场景，如企业管理系统、电子商务平台等。

HBase的应用场景日志处理 HBase适用于大规模的日志处理，可以快速地存储和分析海量的日志数据。通过将日志数据按照时间戳进行排序，可以实现高效的日志查询和分析。

因为由于hbase本身良好的性能，我们通过大量测试找到了各种应用场景中比较优良的参数并应用于生产环境后，都基本满足需求。不过这是我们接下来的重要工作。7 将来计划我们目前维护着淘宝内基于社区0.90.x而定制的hbase版本。

使用redis实现计数器是因为redis是单线程的，使用setnx命令或者lua脚本，可以实现对同一个key的单线程计算。

可通过分组和组内计数来实现，语句如下：select a， count（*） from A Group by a 用Group By分组：Group By + [分组字段]（可以有多个）。

列表中会产生大量的，就需要将filter过滤掉。使用L.count（x） == 1 或者 L.count（x） 1来保留重复项或，非重复项。 set（L）则是保留列表中的唯一项，再用list（）将其转换为列表。