hbase 清理缓存-hbase磁盘减少(6-19-33)
更新时间:2024-12-17 分类:HBase 浏览量:2
HBase本文目录一览:
- 1、hbase的特点,以及和其他nosql数据库的异同
- 2、HBase写数据的异常问题以及优化
- 3、HBase服务高可用之路的探索
- 4、HBase合并storefile的原因是什么?在合并的过程中会做什么操作
- 5、HBase存储架构
hbase的特点,以及和其他nosql数据库的异同
分布式nosql,具备了区别mysql的最大亮点:可扩展性。
数据类型单一:Hbase中的数据都是字符串,没有类型。
hbase的特点:高可靠性、高性能、面向列、可伸缩的。HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
nosql:非关系型数据库,列存储和文档存储(查询低延迟),hbase是nosql的一个种类,其特点是列式存储。
HBase写数据的异常问题以及优化
HBase数据写入通常会遇到两类问题,一类是写性能较差,另一类是数据根本写不进去。
BloomFilter的数据存在StoreFile的meta中,一旦写入无法更新,因为StoreFile是不可变的。
对于读端,捕获异常后,可以采取休眠一段时间后进行重试等方式。3)当然,还可以根据实际情况合理调整hbase.client.retries.number和hbase.client.pause配置选项。
逻辑故障 逻辑故障中的一种常见情况就是配置错误,就是指因为网络设备的配置原因而导致的网络异常或故障。
HBase服务高可用之路的探索
这里的高可用并不是指HBase本身的高可用机制。而是HBase主备双服务的高可用,线上业务依赖于主备HBase集群来提供数据支持,主集群首要的任务时负责数据的读写,备集群只是为了容灾。
用户通常通过访问http://MasterHost:60010就可以通过界面查看HBase集群的相关信息。响应用户部分Admin操作请求。用户可以通过客户端执行建表、删表等操作。RS分布式管理、Region重新分配等功能。
由于存储方式的不同,HBase在读取和查询大规模数据时具有较高的性能优势,而传统数据库在处理事务和复杂查询时较为擅长。此外,HBase和传统数据库在适用场景上也有所区别。
当系统出现分区时,HBase可以通过副本机制来保证数据的可用性。
HBase是一个分布式数据库,它依赖ZooKeeper来提供协调和管理功能。ZooKeeper是一个开源的分布式协调服务,它能够为HBase提供高可用性、一致性和故障恢复机制。因此,HBase必须依赖ZooKeeper来正常运行。
HBase合并storefile的原因是什么?在合并的过程中会做什么操作
合并文件。由于zhidaoflush的触发是回针对所有memStore,所以缓存有些记录不多的memStore flush之后的结果是很多小文件。Compaction操作可以合并这些小文件,减小对StoreFile的维护成本。2)清除删除、过期、多余版本的数据。
明显的,有Memstore Flush产生的HFile越多,集群系统就要做更多的合并操作(额外负载)。更糟糕的是:Compaction处理是跟集群上的其他请求并行进行的。
Storefile的合并,storefile 的数量达到阈值后,会进行合并。
HBase存储架构
1、/hbase/.archive HBase 在做 Split或者 compact 操作完成之后,会将 HFile 移到.archive 目录中,然后将之前的 hfile 删除掉,该目录由 HMaster 上的一个定时任务定期去清理。
2、HBase系统架构如下所示,包括客户端、Zookeeper服务器、Master主服务器、Region服务器。一般而言,HBase会采用HDFS作为底层数据存储。
3、分布式数据库现在出名的有Hbase,oceanbase。其中Hbase是基于HDFS,而oceanbase是自己内部实现的分布式文件系统,在此也可以说分布式数据库以分布式文件系统做基础存储。
4、hadoop发展阶段,及各阶段相对应的组件的作用如下:目前开源hadoop只包含hdfs,mr,和yarn,yarn是hadoop2新增组件。hdfs是hadoop分布式文件系统,主要采用多备份方式存储文件,可以对接hive和hbase等产品并存储对应数据。