【大数据入门核心技术-Hadoop】Hadoop非高可用集群搭建

创始人

2024-03-16 08:23:49

0次

一、Hadoop部署的三种方式

1、Standalone mode（独立模式）

2、Pseudo-Distributed mode（伪分布式模式）

3、Cluster mode（集群模式）

二、准备工作

1、/etc/hosts

2、关闭防火墙和禁用swap交换分区

3、三台机器间免密

4、安装jdk

5、下载好hadoop安装包

三、开始安装Hadoop

1、解压

2、配置hadoop

3、初始化和启动操作

四、集群的页面访问

1、查看NameNode页面地址

2、YARN访问

3、JobHistory访问

五、测试

1、查看目录

2、创建目录

3、上传文件

一、Hadoop部署的三种方式

1、Standalone mode（独立模式）

独立模式又称为单机模式，仅1个机器运行1个java进程，主要用于调试。

2、Pseudo-Distributed mode（伪分布式模式）

伪分布模式也是在1个机器上运行HDFS的NameNode和DataNode、YARN的 ResourceManger和NodeManager，但分别启动单独的java进程，主要用于调试。

3、Cluster mode（集群模式）

单Namenode节点模式-高可用HA模式

集群模式主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下，主节点和从节点会分开部署在不同的机器上。

本教程主要安装单Namenode 节点非高可用集群模式

二、准备工作

集群组建	Master	Slave1	Slave2
NameNode	是
Secondary Namenode	是
DataNode	是	是	是
ResourceManager	是
NodeManager		是	是

1、/etc/hosts

172.30.1.56 master
172.30.1.57 slave1
172.30.1.58 slave2

2、关闭防火墙和禁用swap交换分区

1)关闭防火墙和SeLinux

systemctl stop firewalld && systemctl disable firewalld
setenforce 0
sed -i 's/SELINUX=.*/SELINUX=disabled/g' /etc/sysconfig/selinux

2)禁用swap交换分区

swapoff -a && sed -i 's/SELINUX=.*/SELINUX=disabled/g' /etc/sysconfig/selinux

3、三台机器间免密

生成密钥

ssh-keygen -t rsa

将密钥复制到其他机器

ssh-copy-id slave1
ssh-copy-id slave2

4、安装jdk

将jdk目录复制到/usr/local

vim /etc/profile

export JAVA_HOME=/usr/local/jdk1.8.0_131
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

source /etc/profile

java -version

查看结果

java version "1.8.0_131"
Java(TM) SE Runtime Environment (build 1.8.0_131-b11)
Java HotSpot(TM) 64-Bit Server VM (build 25.131-b11, mixed mode)

5、下载好hadoop安装包

下载地址

Apache Hadoop

三、开始安装Hadoop

1、解压

tar zxvf hadoop-3.2.1.tar.gz -C /usr/local

vim /etc/profile

export HADOOP_HOME=/usr/local/hadoop-3.2.1
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

source /etc/profile

测试

hadoop version

Hadoop 3.2.1
Source code repository https://gitbox.apache.org/repos/asf/hadoop.git -r b3cbbb467e22ea829b3808f4b7b01d07e0bf3842
Compiled by rohithsharmaks on 2019-09-10T15:56Z
Compiled with protoc 2.5.0
From source with checksum 776eaf9eee9c0ffc370bcbc1888737
This command was run using /usr/local/hadoop-3.2.1/share/hadoop/common/hadoop-common-3.2.1.jar

2、配置hadoop

创建数据目录

mkdir -p /data/bigdata/hadoop/tmp

mkdir -p /data/bigdata/hadoop/var

mkdir -p /data/bigdata/hadoop/dfs/name

mkdir -p /data/bigdata/hadoop/dfs/data

cd /usr/local/hadoop-3.2.1/etc/hadoop

修改配置hadoop-env.sh

JAVA_HOME 和 HADOOP_HOME改为真实路径

在最后面添加

export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

修改core-site.xml

fs.defaultFShdfs://master:9000HDFS 的 URI，文件系统://namenode标识:端口hadoop.tmp.dir/data/bigdata/hadoop/tmpnamenode 上传到 hadoop 的临时文件夹

修改works

master

slave1
slave2

修改hdfs-site.xml

dfs.namenode.name.dir/data/bigdata/hadoop/dfs/namedatanode 上存储 hdfs 名字空间元数据dfs.datanode.data.dir/data/bigdata/hadoop/dfs/datadatanode 上数据块的物理存储位置dfs.replication2副本个数，默认配置是 3，应小于 datanode 机器数量dfs.webhdfs.enabledtruedfs.permissions.enabledfalse

先将mapred-site.xml.template copy 一份命名为mapred-site.xml

再修改mapred-site.xml为


mapred.job.trackermaster:49001

mapred.local.dir/data/bigdata/hadoop/var

mapreduce.framework.nameyarn

修改yarn-site.xml

yarn.resourcemanager.hostnamemasterThe address of the applications manager interface in the RM.yarn.resourcemanager.address${yarn.resourcemanager.hostname}:8032The address of the scheduler interface.yarn.resourcemanager.scheduler.address${yarn.resourcemanager.hostname}:8030The http address of the RM web application.yarn.resourcemanager.webapp.address${yarn.resourcemanager.hostname}:8088The https adddress of the RM web application.yarn.resourcemanager.webapp.https.address${yarn.resourcemanager.hostname}:8090yarn.resourcemanager.resource-tracker.address${yarn.resourcemanager.hostname}:8031The address of the RM admin interface.yarn.resourcemanager.admin.address${yarn.resourcemanager.hostname}:8033yarn.nodemanager.aux-servicesmapreduce_shuffleyarn.scheduler.maximum-allocation-mb8192每个节点可用内存,单位MB,默认8182MByarn.nodemanager.vmem-pmem-ratio2.1yarn.nodemanager.resource.memory-mb2048yarn.nodemanager.vmem-check-enabledfalseyarn.application.classpath/usr/local/hadoop-3.2.1/etc/hadoop,/usr/local/hadoop-3.2.1/share/hadoop/common/*,/usr/local/hadoop-3.2.1/share/hadoop/common/lib/*,/usr/local/hadoop-3.2.1/share/hadoop/hdfs/*,/usr/local/hadoop-3.2.1/share/hadoop/hdfs/lib/*,/usr/local/hadoop-3.2.1/share/hadoop/mapreduce/*,/usr/local/hadoop-3.2.1/share/hadoop/mapreduce/lib/*,/usr/local/hadoop-3.2.1/share/hadoop/yarn/*,/usr/local/hadoop-3.2.1/share/hadoop/yarn/lib/*