[TOC]

认识HBase

HBase介绍

HBase = Hadoop database，Hadoop数据库
开源数据库
官网：hbase.apache.org/
HBase源于Google的BigTable
Apache HBase™是Hadoop数据库，是一个分布式，可扩展的大数据存储。
当需要对大数据进行随机、实时读/写访问时，请使用Apache HBase™。该项目的目标是托管非常大的表 - 数十亿行X百万列 - 在商品硬件集群上。Apache HBase是一个开源的，分布式的，版本化的非关系数据库nosql，模仿Google的Bigtable： Chang等人的结构化数据分布式存储系统。正如Bigtable利用Google文件系统提供的分布式数据存储一样，Apache HBase在Hadoop和HDFS之上提供类似Bigtable的功能。
HBase可执行基于Yarn平台的计算任务，但不擅长。

< !–more–>

HBase集群角色

HDFS：
- NameNode——主节点
- DataNode——数据存储节点
Yarn：
- ResourceManager——全局的资源管理器
- NodeManager——分节点资源和任务管理器
HBase：
- HMaster
  - 负责Table表和RegionServer的监控管理工作
  - 处理元数据的变更
  - 对HRegionServer进行故障转移
  - 空闲时对数据进行负载均衡处理
  - 管理Region
  - 借助ZooKeeper发布位置到客户端
- HRegionServer
  - 负责Table数据的实际读写
  - 刷新缓存数据到HDFS
  - 处理Region
  - 可以进行数据压缩
  - 维护Hlog
  - Region分片

hbase 架构

HRegionServer结构：

HLog：存储HBase的修改记录
HRegion：根据rowkey（行键，类似id）分割的表的分片
Store：对应HBase表中的一个列族，可存储多个字段
HFile：真正的存储文件
MemStore：保存当前的操作
ZooKeeper：存放数据的元数据信息，负责维护RegionServer中保存的元数据信息
DFS Client：存储数据信息到HDFS集群中

安装

前期准备

Hadoop集群环境
ZooKeeper集群环境

服务器分配

主机名	IP
centos-node1	192.168.99.101
centos-node2	192.168.99.102
centos-node3	192.168.99.103

解压安装文件到指定目录

1	$ tar -zxvf hbase-1.4.13.tar.gz -C 目标目录

修改配置文件

hbase-env.sh

1	$ vi hbase-env.sh

# The java implementation to use.  Java 1.7+ required.
export JAVA_HOME=jdk安装路径

# 注释掉以下语句（jdk1.8中不需要这个配置）
# export HBASE_MASTER_OPTS="$HBASE_MASTER_OPTS -XX:PermSize=128m -XX:MaxPermSize=128m"
# export HBASE_REGIONSERVER_OPTS="$HBASE_REGIONSERVER_OPTS -XX:PermSize=128m -XX:MaxPermSize=128m"

# Tell HBase whether it should manage it's own instance of Zookeeper or not.
# 关闭HBase自带的ZooKeeper
export HBASE_MANAGES_ZK=false

hbase-site.xml

1	$ vi hbase-site.xml

<configuration>
	<!-- 设置namenode所在位置（HDFS中存放的路径） -->
	<property>
	    <name>hbase.rootdir</name>
	    <value>hdfs://centos-node1:9000/hbase</value>    
	</property>
	
	<!-- 是否开启集群 -->
	<property>
	    <name>hbase.cluster.distributed</name>
	    <value>true</value>
	</property>
  
	<!-- HBase-0.9.8之前默认端口为60000 -->
	<property>
	    <name>hbase.master.port</name>
	    <value>16000</value>
	</property>
  
  <property>
		<name>hbase.master.info.port</name>
		<value>16010</value>
	</property>
  
  <property>
		<name>hbase.regionserver.port</name>
		<value>16201</value>
	</property>
  
  <property>
		<name>hbase.regionserver.info.port</name>
		<value>16301</value>
	</property>
	
	<!-- zookeeper集群的位置 -->
	<property>
	    <name>hbase.zookeeper.quorum</name>
	    <!-- 注意不要有空格 -->  
	    <value>centos-node1,centos-node2,centos-node3</value>
	</property>
	
	<!-- hbase的元数据信息存储在zookeeper的位置 -->
	<property>
	    <name>hbase.zookeeper.property.dataDir</name>
	    <value>/usr/local/zookeeper/data</value>
	</property>
</configuration>

regionservers

加入节点主机名

1
2
3

centos-node1
centos-node2
centos-node3

解决依赖问题

1
2
3

$ cd /usr/local/hbase/lib
$ rm -fr hadoop-*
$ rm -fr zookeeper-*

把相关版本的zookeeper和hadoop的依赖包导入到hbase/lib

软链接hadoop配置

1 2	$ ln -s /usr/local/hadoop/etc/hadoop/core-site.xml /usr/local/hbase/conf/core-site.xml $ ln -s /usr/local/hadoop/etc/hadoop/hdfs-site.xml /usr/local/hbase/conf/hdfs-site.xml

复制到其他节点

1 2	$ scp -r /usr/local/hbase centos-node2:/usr/local/ $ scp -r /usr/local/hbase centos-node3:/usr/local/

配置环境变量

1	$ vi /etc/profile

JAVA_HOME=/usr/local/java/
JRE_HOME=$JAVA_HOME/jre
HADOOP_HOME=/usr/local/hadoop
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
ZOOKEEPER_HOME=/usr/local/zookeeper
HBASE_HOME=/usr/local/hbase

PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/bin:$ZOOKEEPER_HOME/bin:$HBASE_HOME/bin

export JAVA_HOME JRE_HOME PATH CLASSPATH HADOOP_HOME ZOOKEEPER_HOME HBASE_HOME

1	$ source /etc/profile

修改防火墙

# 查看当前区域
$ firewall-cmd --get-active-zones
# 新建一个自定义服务(端口不全)
$ firewall-cmd --new-service=hbase --permanent
$ firewall-cmd --service=hbase --add-port 16000/tcp --permanent
$ firewall-cmd --service=hbase --add-port 16010/tcp --permanent
$ firewall-cmd --service=hbase --add-port 16201/tcp --permanent
$ firewall-cmd --service=hbase --add-port 16301/tcp --permanent
$ firewall-cmd --service=hbase --add-port 2181/tcp --permanent
# 不中断服务的重新加载
$ firewall-cmd --reload
$ firewall-cmd --add-service=hbase
# 将当前防火墙的规则永久保存；
$ firewall-cmd --runtime-to-permanent

或者

1 2	$ systemctl stop firewalld $ systemctl disable firewalld

启动集群

启动主节点
- hbase-daemon.sh start master
启动从节点
- hbase-daemon.sh start regionserver

关闭集群

关闭主节点
- hbase-daemon.sh stop master
关闭从节点
- hbase-daemon.sh stop regionserver

UI 展示

hbase shell的一些命令

1 2	# 进入终端 $ hbase shell

1 2	# 查询表 $ list

1 2	# 显示服务器状态 $ status

1 2	# 显示当前用户 $ whoami

1 2	# 创建表 $ create '表名', '列族1', '列族2'

# 表的一些操作
# 全表扫描
$ scan '表名'
# 指定Rowkey扫描
$ scan '表名', {STARTROW => 'Rowkey值', STOPROW => 'Rowkey值'}
# 查看表结构
$ describe '表名'
# 修改表结构信息
$ alter '表名', {NAME => '列族名', 变更字段名 => ' '}
# 查询指定数据信息
# 指定具体的rowkey
$ get '表名', 'rowkey'
# 指定具体的列
$ get '表名', 'rowkey', '列族:列名'
# 统计表行数
$ count '表名'
# 根据Rowkey进行统计
$ count '表名', 'rowkey'
# 表中添加数据信息。HBase只有覆盖没有修改,覆盖时对应表名、rowkey、列族、列名字段，输入新的值信息
$ put '表名', 'rowkey', '列族:列名', '值'
# 清空表
$ truncate '表名'
# 删除表
# 指定表不可用
$ disable '表名'
# 删除
$ drop '表名'
# 退出终端
$ exit
$ quit

参考资源

https://juejin.im/post/6844903797655863309#heading-21

一年春又来

hbase 1.4.13 安装部署