百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Centos7虚拟机搭建Hadoop集群环境教程

nanshan 2025-07-08 21:41 8 浏览 0 评论

一、安装虚拟机

  • 点击从光盘或映像中安装,选择创建虚拟机的镜像
  • 继续下一步,点击自定设置,修改虚拟机的名称
  • 打开虚拟机设置菜单
  • 点击网络适配器
  • 确保虚拟机与宿主机网络共享
  • 然后正式开始运行安装虚拟机,配置语言、系统安装位置、网络和主机名
  • 修改主机名称
  • 设置root密码后,按提示重启后,系统安装成功。


二、虚拟机初始化配置

系统重启后,需要登录需要输入用户名:root,以及刚才配置等root密码。

可以用ifconfig命令查看当前机器的IP:

ifconfig

如果虚拟机新安装的centos没有安装ifconfig命令报错,可以执行如下命令:

yum -y install net-tools

如果显示mirrors无法连接,则可能是网络没有启用联网功能,需要执行以下命令:

sudo vi /etc/sysconfig/network-scripts/ifcfg-ens33

初始信息如下:

#网络类型为以太网
TYPE=Ethernet
PROXY_METHOD=none
BROWSER_ONLY=no
#是否自动获取IP(none和static代表静态手动分配、dhcp代表自动获取IP地址)
BOOTPROTO=dhcp
DEFROUTE=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_FAILURE_FATAL=no
IPV6_ADDR_GEN_MODE=stable-privacy
NAME=ens33
UUID=44cea-dcf6-3d3c-bd4e-98e47d9ffcy9
#网卡设备名
DEVICE=ens33
#是否随网络服务启动,ens33生效
ONBOOT=no

修改配置ONBOOT=no----->ONBOOT=yes即启动联网功能。 另外,我们在上述文件配置静态IP需要做如下修改和添加:

BOOTPROTO=static
ONBOOT=yes
#IP地址
IPADDR=192.168.2.144
#子网掩码
NETMASK=255.255.255.0
#网关
GATEWAY=192.168.2.1
#DNS
DNS1=114.114.114.114

保存后,输入以下命令激活,重启网络服务:

service network restart

之后即可执行ifconfig命令了。

使用centos注意关闭防火墙:

#暂时关闭防火墙
systemctl stop firewalld
#永久关闭防火墙
systemctl disable firewalld

三、Hadoop集群规划

假设我们有5台Centos系统机器,一台作为Master,四台作为slaves。五台机器处于同一局域网内。

假设我们规划了五台机器的名称,并获得其IP如下:

master 172.18.0.5 slave1 172.18.0.1 slave2 172.18.0.2 slave3 172.18.0.3 slave4 172.18.0.4 为了更好的在Shell中区分这五台主机,我们分别在五台主机中执行如下命令:

sudo vim /etc/hostname

master的/etc/hostname添加:

master

同样,slave1的/etc/hostname添加:

slave1

所有5台机器都变更后,添加同样的配置:

sudo vim /etc/hosts

配置如下:

127.0.0.1 localhost
172.18.0.5 master 
172.18.0.1 slave1
172.18.0.2 slave2
172.18.0.3 slave3
172.18.0.4 slave4

重启系统后,hostname才会更新:

sudo reboot

四、安装和配置ssh

首先,五台电脑分别运行如下命令,测试是否能连接到本地localhost:

ssh localhost

登陆成功会显示如下结果:

Last login: Mon Feb 29 18:29:55 2016 from ::1 如果不能登陆本地,请运行如下命令,安装openssh-server,并生成ssh公钥。

sudo yum -y install openssh-server
ssh-keygen -t rsa -P ""
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

保证所有电脑都能连同本地localhost后,还需要让master能免密登陆slaves。在master执行如下命令,将master的id_rsa.pub传送给所有slaves:

scp ~/.ssh/id_rsa.pub root@slave1:/home/
scp ~/.ssh/id_rsa.pub root@slave2:/home/
scp ~/.ssh/id_rsa.pub root@slave3:/home/
scp ~/.ssh/id_rsa.pub root@slave4:/home/

之后在所有slaves电脑上执行以下命令,查看目录中是否有id_rsa.pub存在:

ls ~

接着,在所有slaves电脑上执行以下命令,将master公钥添加到对应节点上:

cat /home/id_rsa.pub >> ~/.ssh/authorized_keys
rm /home/id_rsa.pub

如果五台机器上用户名都一样,例如都是user,则master可以登陆任何slaves:

ssh slave1

如果五台机器用户名不一样,还需要在master修改~/.ssh/config文件,如果没有该文件,自己创建文件。

Host master
    user XXX
Host slave1
    user XXX

然后再免密登陆:

ssh slave1

五、JDK安装

五台机器都按以下方式安装JDK: 下载JDK,解压:

tar -zxvf jdk-7u79-linux-x64.tar.gz -C /home/

设置环境变量:

vim ~/.bash_profile
export JAVA_HOME=/home/jdk1.7.0_79
export PATH=$JAVA_HOME/bin:$PATH
# Setting PATH for Hadoop
export HADOOP_HOME=/home/hadoop-2.7.7
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source .bash_profile

验证java是否配置成功:

java -version

六、安装hadoop, 填写配置文件

下载好的hadoop安装包文件解压到目标目录下,hadoop根目录下有以下几个重要的目录:

sbin:启动或停止hadoop相关服务的脚本。 bin:对hadoop相关服务(HDFS、YARN)进行操作的脚本。 etc:hadoop的配置文件目录。 share:hadoop的依赖jar包和文档。 lib:hadoop的本地库。 我们填写的配置文件都位于hadoop/etc目录下。 #####hdfs相关的配置文件 以下配置文件是和hdfs组件相关的,需要填好才能启用hdfs的相关功能:

/etc/hadoop/hadoop-env.sh文件里需要给hadoop配置java环境:

export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_181.jdk/Contents/Home

/etc/hadoop/core-site.xml文件用于配置hadoop运行时产生的临时数据的存储目录;以及hdfs的namenode的地址和端口号。

<configuration>
  <property>
    <!--hadoop临时目录-->
    <name>hadoop.tmp.dir</name>
    <value>file:/data/hadoop/tmp</value>
    <description>默认存在/tmp目录</description>
  </property>
  <property>
    <!--HDFS NameNode地址-->
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
    <description>指定hdfs的主节点</description>
  </property>
</configuration>

/etc/hadoop/hdfs-site.xml文件需要配置hdfs上数据的副本系数(包含原数据)、namenode和datanode数据存放的目录和secondarynamenode节点。

<configuration>
  <property>
    <!--HDFS副本数-->
    <name>dfs.replication</name>
    <value>2</value>
    <description>指定hdfs的副本数</description>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/home/hadoop/hadoop/tmp/dfs/name</value>
    <description>指定namenode数据的目录</description>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>file:/home/hadoop/hadoop/tmp/dfs/data</value>
    <description>指定datanode数据的目录</description>
  </property>
  <property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>master:9001</value>
    <description>指定secondarynamenode的节点</description>
  </property>
</configuration>

/etc/hadoop/workers(slaves),填写从属节点的主机名:

slave1
slave2
slave3
slave4

这个配置文件用于记录这个集群的所有datanode的主机名。

七、yarn相关的配置文件

以下配置文件是和yarn组件相关的,需要填好才能启用yarn的相关功能:


/etc/hadoop/mapred-site.xml文件指定mapreduce运行在什么地方:

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
    <description>指定MapReduce运行在yarn上</description>
  </property>
  <property>
    <name>mapreduce.reduce.shuffle.memory.limit.percent</name>
    <value>0.10</value>
  </property>
</configuration>

/etc/hadoop/yarn-site.xml文件指定yarn的主节点等信息:

<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>master</value>
    <description>指定yarn的主节点</description>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
    <description>允许MapReduce运行在yarn上</description>
  </property>
  <property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
  </property>
  <property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
  </property>
</configuration>

八、启动hdfs

在/bin目录下执行以下命令,格式化hdfs的文件系统,安装后执行一次即可:

hdfs namenode -format

格式化成功后,配置文件设置的tmp目录下会出现临时数据的目录结构。 在/sbin目录下执行以下命令即可启动hdfs服务:

./start-dfs.sh

执行完后,在任意目录下输入以下命令可以查看当前启动了哪些进程:

jps

如果上述命令可以查看到这个进程,则可以在浏览器中查看hdfs情况,这一步不同版本端口不太一样:

2.x:http://localhost:50070 3.x:http://localhost:9870 在/sbin目录下执行以下命令即可启动hdfs服务:

./stop-dfs.sh

九、启动yarn

在/sbin目录下执行以下命令,执行RM和NM进程:

sbin/start-yarn.sh

jps命令后可以查看到多了rm和nm的进程。或者在浏览器中键入以下地址,可以查看到RM的状况:http://localhost:8088 以Hadoop提供的测试文件
/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar为例:

hadoop jar hadoop-mapreduce-examples-2.7.7.jar pi 2 3

在/sbin目录下执行以下命令,关闭RM和NM进程:

sbin/stop-yarn.sh

相关推荐

三种自建KMS激活系统自动激活windows方法

第一种:在windows服务器上搭建主要针对vol版本(win7、win10、win20xx、win2012等等)平台:我自己搭建的windows虚拟机,windows2016的操作系统软件:...

重装系统被收98元?避开Windows付费陷阱的实用指南

重装系统被收98元?避开Windows付费陷阱的实用指南有网友反映,在重装Windows系统后,屏幕突然弹出“激活系统需支付98元服务费”的提示,疑惑自己是不是遭遇了付费陷阱。事实上,微软官方的Wi...

Windows Server2012远程桌面服务配置和授权激活

安装:注意:安装完毕之后需手动重启一下计算机配置终端服务管理工具---远程桌面服务---RD授权诊断程序,查看当前服务器有没有授权授权:运行—>gpedit.msc->计算机配置---管理...

新书速览|Windows Server 2022 系统与网站配置实战

讲述桌面体验、ServerCore/NanoServer,容器与云系统的配置1本书内容《WindowsServer2022系统与网站配置实战》秉持作者一贯理论兼具实践的写作风格,以新版的Wi...

Windows激活全攻略:KMS神钥与专业工具的完美结合!

对于许多Windows用户来说,系统的激活是一个必经的过程。虽然Windows操作系统在未经激活的状态下也可以使用一段时间,但长期来看,未激活的系统会限制某些功能并频繁提示用户激活。以下是两种流行的激...

微软Win9全新激活技术曝光(微软系统激活有什么用)

2014-07-0905:46:00作者:徐日俄罗斯Wzor日前披露了更多关于Windows9的最新消息,据悉,Windows9将会在今年秋季亮相,其宣传口号是“想要开始按钮和开始菜单?如你所...

快速激活Windows 10/11:CMD命令详细教程

#记录我的2024#激活Windows操作系统是确保系统功能和安全更新正常运行的重要步骤。本文将为您分享如何使用命令提示符(CMD)在Windows10和Windows11上进行激活的详细步骤。...

Wndows 2019 RDS应用发布部署(rds的安装和应用程序的发布)

安装前的准备1、需要提供服务器作为应用中心,应用中心的推荐配置如下表所示。规格建议1-10人11-20人21-50人51-100人100+人CPU4核8核16核内存8GB16GB32GB64GB系统盘...

解决 Windows 系统激活难题(如何解决windows激活问题)

今天,一位朋友给我说,他手头有三台电脑,均同时弹出系统未激活的提示。他对此毫无头绪,便急忙将电脑上出现的激活提示信息一股脑发给了我。我看到其中一台显示的是“Windows10企业版LTSC尚...

自建KMS激活服务器(自建kms激活服务器的风险)

自建KMS激活服务器Win10和office安装后,都需要激活才可以使用,一般可以输入购买的MAK激活码进行在线激活,也可以通过KMS激活,网上也有很多激活工具,但这些工具一般都含有病毒或木马程序,容...

30秒免费激活windows和office亲测有效!

“第三方工具有病毒?”“KMS服务器激活总失效?”今天给大家分享一个开源激活工具——MicrosoftActivationScripts(MAS),无需密钥、不装软件,30秒永久激活Window...

「操作系统」Windows 10 LTSC 2019 企业版C大集成更新版

Windows10LTSC企业版CHIANNET集成更新优化整合多镜像版,CHIANNET,是USBOS超级PE维护盘工具箱作者,长久以来一直默默的更新着,USBOSPE软件,电脑城装机及...

一文看懂Windows激活:自查方法+授权类型科普(Win7/Win10通用)

一、如何判断Windows是否永久激活?无论是Win7还是Win10,均可通过以下方法快速验证:命令提示符法(通用):按下Win+R,输入slmgr.vbs/xpr并按回车键运行即可查看是否...

部分Windows Server 2019/2022用户反馈无法运行微软Teams应用

IT之家7月2日消息,科技媒体borncity今天(7月2日)发布博文,报道称在多个WindowsServer版本上,MicrosoftTeams应用近期出现了运行故障。用...

这种Windows激活方式已有20年...(windows现在激活)

2006年微软正式发布WindowsVista,随之而来引入了一项新的激活机制「OEM激活」,这项机制在Vista和Win7上最为流行。其实WindowsServer自2008开始至2025版本一...

取消回复欢迎 发表评论: