hbase扩容-hbase堆外内存配置(2-3-52)

更新时间：2024-05-18 分类：HBase 浏览量：2

HBase本文目录一览：

一种Bucket存储一种指定BlockSize的数据块，每个Bucket的大小默认为2M，不同大小的Bucket之间的内存是可以互相使用的，从而保证的内存的使用率。

HBase数据按照block块存储，默认是64K，HBase中提供两种BlockCache的实现：默认on-heap LruBlockCache和BucketCache（通常是off-heap）。

HBase上Regionserver的内存分为两个部分，一部分作为Memstore，主要用来写；另外一部分作为BlockCache，主要用于读。

LRUBlockCache是HBase目前默认的BlockCache机制。

运行一天发现访问hbase失败，异常如下token cant be found In cache。

1、rsync可以增量的传输新增加的文件，也可以更新两台主机不同内容的文件（只传输差异部分）。具体的操作方式是这样，先确定好转移网站的时间，先在前一天，执行一次rsync，将数据全部传输至新服务器，这期间是不需要关闭网站的。

2、在生产实践应用中，Hadoop非常合适应用于大数据存储和大数据的剖析应用，合适服务于几千台到几万台大的服务器的集群运行，支撑PB级别的存储容量。

3、这也可能导致资源利用不均衡，长时间在一台服务器上运行一个大作业，而其他服务器就会等待。不要忘了查看一个任务的作业总数。在必要时调整这个参数。最好实时监控数据块的传输。

4、你可以在自己熟悉的开发环境之内创建、构建并部署大数据服务。建模：Apache Hadoop或Hadoop发行版本为Hadoop集群提供了基础设施。然而，你仍然要写一大堆很复杂的代码来构建自己的MapReduce程序。

数据表不存在：确保要导出的数据表存在，可以通过HBaseShell或其他管理工具验证表的存在性。权限问题：确保具有足够的权限执行数据导出操作，需要相应的读取数据表的权限。

存储成本高：Hadoop的HDFS为了避免集群中服务器故障从而导致的不可用的情况，默认使用三副本策略存储数据，即数据会保存三份。这会极大地提高存储成本。

主要有三种方法：Put API Put API可能是将数据快速导入HBase表的最直接的方法。但是在导入【大量数据】时不建议使用！但是可以作为简单数据迁移的选择，直接写个代码批量处理，开发简单、方便、可控强。

其他程序存在内存溢出bug CPU消耗过大节点失效timeout阈值过短经过逐步排查，我们定位故障原因为第4点，timeout阈值不足。

高可靠性 HBase采用了数据冗余和自动故障恢复的机制，可以保证数据的高可靠性。它将数据副本存储在不同的服务器上，并在主节点故障时自动切换到备用节点，确保数据的持久性和可用性。