hadoop集群搭建详细方法
nanshan 2025-05-30 16:32 4 浏览 0 评论
第一步:搭建配置新的虚拟机
格式化之前先把tmp目录下所有与Hadoop有关的信息全部删除
rm -rf /tmp/hadoop-centos*
开启之后jps只有Java的进程:sudo vi /etc/hosts 里面加 bogon
1.sudo赋权
Root用户 vi /etc/sudoers
/root n(查找下一个结果)
centos ALL=(ALL) NOPASSWD:ALL
2.修改ens33网卡(桥接模式静态IP)
创建软链接
ln –s /etc/sysconfig/network-scripts/ifcfg-ens33 ens33
修改配置文件
vi /etc/sysconfig/network-scripts/ifcfg-ens33
TYPE=Ethernet
BOOTPROTO=static
DEFROUTE=yes
PEERDNS=yes
PEERROUTES=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_PEERDNS=yes
IPV6_PEERROUTES=yes
IPV6_FAILURE_FATAL=no
IPV6_ADDR_GEN_MODE=stable-privacy
NAME=ens33
UUID=51248a5b-aece-4777-ab51-7b5e61602180
DEVICE=ens33
ONBOOT=yes
IPADDR=192.168.12.206
NETMASK=255.255.255.0
GATEWAY=192.168.12.1
DNA1=219.141.136.10
DNS2=202.106.196.115
DNS3=8.8.8.8
DNS4=114.114.114.114
改完后重启network服务
sudo systemctl restart network
虚拟机上右键-->设置-->网络适配器-->桥接模式
检测是否连接网络 ping www.baidu.com
3.修改主机名
sudo vi /etc/hostname
原来内容全部删除 写入s126
重启虚拟机
4.安装JDK和Hadoop
1.上传文件包
2.解压 tar –zxvf ****
3.创建软链接 ln –s *** hadoop
tar -zxvf jdk-8u121-linux-x64.tar.gz
ln -s jdk1.8.0_121 java
rm -rf jdk-8u121-linux-x64.tar.gz
tar -zxvf hadoop-2.8.0.tar.gz
ln -s hadoop-2.8.0 hadoop
rm -rf hadoop-2.8.0.tar.gz
4.配置环境变量
sudo vi /etc/profile
#java
JAVA_HOME=/home/centos/java
export PATH=$PATH:$JAVA_HOME/bin
#hadoop
HADOOP_HOME=/home/centos/hadoop
Export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
vi ~/hadoop/etc/hadoop/hadoop-env.sh
#java
export JAVA_HOME=/home/centos/java
5.刷新配置文件
source /etc/profile
5.关闭防火墙
sudo systemctl stop firewalld关闭防火墙
sudo systemctl start firewalld开启防火墙
sudo systemctl disable firewalld禁用防火墙(开机不启动)
sudo systemctl enable firewalld使用防火墙(开机启动)
sudo systemctl status firewalld查看防火墙状态
第二步:Hadoop集群搭建
1.独立模式
1、 将hadoop的jar包上传服务器
2、 解压tar包
tar –zxvf ****
3、 创建软连接
ln –s *** hadoop
4、 配置环境变量
[vi /etc/profile]
最下面加上
#hadoop
HADOOP_HOME=/home/centos/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
最后保存文件加载环境变量配置文件
source /etc/profile
5、 修改hadoop环境变量配置文件配置jdk路径
[$HADOOP_HOME/etc/hadoop/hadoop-env.sh]
6、 测试
hadoop version
默认hadoop就是独立模式。
特点:运行任务是一个java进程,就相当于运行一个java程序
2.伪分布式模式配置
修改hdfs配置文件
vi ~/hadoop/etc/hadoop/core-site.xml
cd ~/hadoop/etc/hadoop
[core-site.xml]
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.12.126:9000</value>
</property>
</configuration>
vi ~/hadoop/etc/hadoop/hdfs-site.xml
[hdfs-site.xml]
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
设置ssh免密登录
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys
检测方式:ssh localhost/主机真实ip
格式化文件系统
hadoop namenode -format
启动文件系统
jps 检测Java开启的进程
start-dfs.sh 启动文件系统(启动了三个java进程)
jps 再次检测Java开启的进程(应该是4个)
配置yarn资源管理器
cd ~/hadoop/etc/hadoop
cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
vi yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
start-dfs.sh && start-yarn.sh && jps
3.完全分布式
配置/etc/hosts文件(本地静态DNS)
首行加上 : bogon
增加:
192.168.12.201 s201
192.168.12.202 s202
192.168.12.203 s203
1.设置ssh免密登录:
(现在别的主机ssh 主机IP 然后把宿主机复制过去的权限600)
效果:从主机上能通过ssh免密登录
目的:在主机上通过ssh执行命令
设置的方式:
首先给主机设置ssh免密登录,将主机的公钥(id_rsa.pub)通过scp命令发送到其他 主机,在其他主机上将获取到的公钥追加到~/.ssh/authorized_keys。
主机:
ssh-keygen –t rsa –P '' –f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys
scp ~/.ssh/id_rsa.pub centos@192.168.12.202:~/.ssh/id_rsa.pub.s201
scp ~/.ssh/id_rsa.pub centos@192.168.12.203:~/.ssh/id_rsa.pub.s201
s202:
s203:
cat ~/.ssh/id_rsa.pub.s201 >> ~/.ssh/authorized_keys
2.shell脚本的操作:
主机写分发脚本cpTo,查看脚本xcall。赋予执行权限。移动到/usr/local/bin目录下,以便我们能在任何地方使用脚本
[cpTo]
#脚本的目的是:修改完了主机的文件以后,可以通过它分发到其他主机,实现同步
#脚本的用法:cpTo 文件(绝对路径/相对路径)
#!/bin/bash
#获取参数的绝对路径
dirname=`cd $(dirname $1); pwd`
basename=`basename $1`
echo ${dirname}/${basename}
for i in s202 s203
do
echo "=================$i ${dirname}/${basename}=================="
#如果其他机器没有父目录创建父目录
ssh $i mkdir -p ${dirname}
#远程拷贝文件
scp $1 ${i}:${dirname}/${basename}
done
[xcall.sh]
#作用是通过ssh远程运行命令,比如查看jps,在比如删除/tmp
#用法:xcall 命令
#!/bin/bash
for host in s201 s202 s203
do
echo "====================echo $host $@==========================="
#ssh远程执行命令
#$@获取所有参数
#source /etc/profile 因为ssh远程执行命令不去加载/etc/profile,所以很多命令没法用
ssh $host "source /etc/profile && $@"
Done
3.软件安装的操作
安装jdk、hadoop、配置环境变量JAVA_HOME、HADOOP_HOME,可以通过xcall脚本来 同步安装
在主机上修改hosts文件,给主机配置所有机器的dns服务,使用cpTo脚本分发到其他 机器,让其他机器也有dns服务
注意:/etc/hosts是root用户的文件,所以需要切换到root执行
dns服务: 可以将域名解析为ip地址。比如ping s201,解析成ping 192.168.12.201
4.配置文件操作
在主机上修改hadoop的配置文件:
[Hadoop-en.sh] [core-site.xml] [hdfs-site.xml] [mapred-site.xml] [yarn-site.xml] [slaves]
通过cpTo脚本进行分发(可以分发上一级目录来全部分发)
1、[hadoop-env.sh]配置javahome
2、[core-site.xml]配置连接url
[core-site.xml]
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://s201:9000</value>
</property>
</configuration>
3、[hdfs-site.xml]配置的是副本数
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>
4、[mapred-site.xml]配置运行map任务采用的集群资源管理框架
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
5、[yarn-site.xml]配置RM的节点和数据传输方式
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>s126</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
6、[slaves]配置datanode节点和NM节点
s201
s202
s203
5.主机格式化文件系统
只需要在主机格式化文件系统(xcall删除数据目录/tmp/hadoop*,日志文件/logs/*)
启动hdfs文件系统和yarn框架
xcall查看启动是否成功/看web
第三步:配置项目
1、 将要统计的文件(wordcount.txt)上传到hdfs
hdfs dfs –put 本地文件 hdfs目录
hdfs dfs -put wordCount2.txt /user
2、 运行任务
hadoop jar jar包
com.zdjy.bigdata.wordCount.hadoop.WordCountApp hdfs输 入文件
hdfs输出目录
hadoop jar wordCount.jar com.zdjy.WordCountApp /user/wordCount2.txt /saa
3、 查看结果
hdfs dfs –cat hdfs输出目录下的文本文件 (hdfs dfs -cat /saa/*)
4.关闭文件系统
hdfs dfs -mkdir /user
hdfs dfs -ls -R /
hdfs -dfs -put wordCount2.txt /user
hdfs dfs -put wordCount2.txt /user
hdfs dfs -ls -R /
hadoop jar wordCount-0.0.1-SNAPSHOT.jar
com.zdjy.bigdata.wordCount.hadoop.WordCountApp
/user/wordCount2.txt /out
hdfs dfs -cat /out/*
5.在浏览器上看web(sudo systemctl stop firewalld关闭防火墙)
http://192.168.12.206:50070
文件系统:50070
yarn:8088
ssh免密登录与手动单独启动每一个进程
设置ssh免密登录的原因:我们
start-dfs.sh/start-yarn.sh他们都是通过ssh来远程控制每一台主机的进程的启动
[start-dfs.sh]
if [ -n "$HADOOP_SECURE_DN_USER" ]; then
echo \
"Attempting to start secure cluster, skipping datanodes. " \
"Run start-secure-dns.sh as root to complete startup."
else
"$HADOOP_PREFIX/sbin/hadoop-daemons.sh" \
--config "$HADOOP_CONF_DIR" \
--script "$bin/hdfs" start datanode $dataStartOpt
fi
[Hadoop-daemons.sh]
exec "$bin/slaves.sh" --config $HADOOP_CONF_DIR cd "$HADOOP_PREFIX" \; "$bin/hadoop-daemon.sh" --config $HADOOP_CONF_DIR "$@"
[slaves.sh]
for slave in $SLAVE_NAMES ; do
ssh $HADOOP_SSH_OPTS $slave #34;${@// /\\ }" \
2>&1 | sed "s/^/$slave: /" &
if [ "$HADOOP_SLAVE_SLEEP" != "" ]; then
sleep $HADOOP_SLAVE_SLEEP
fi
done
我们手动启动每一个进程
主机启动namenode
hadoop-daemon.sh start namenode
所有机器手动启动datnode
hadoop-daemon.sh start datanode
在主机上手动启动datanode
ssh s202 “source /etc/profile && hadoop-daemon.sh start datanode”
在主机上脚本启动所有datanode
hadoop-daemons.sh start datanode
在主机启动secondarynamenode
主机启动resourcemanager
yarn-daemon.sh start resourcemanager
所有机器启动nodemanager
yarn-daemon.sh start nodemanager
在主机启动所有的nodemanager
yarn-daemons.sh start nodemanager
start-dfs.sh=NN,DNs,2NN
start-yarn.sh=RM,NMs
start-all.sh= start-dfs.sh && start-yarn.sh
>
- 上一篇:Linux 常用命令集合
- 下一篇:Linux 系统启动完整流程
相关推荐
- Linux下C++访问web—使用libcurl库调用http接口发送解析json数据
-
一、背景这两天由于一些原因研究了研究如何在客户端C++代码中调用web服务端接口,需要访问url,并传入json数据,拿到返回值,并解析。 现在的情形是远程服务端的接口参数和返回类型都是json的字符...
- 干货 | 这 3 个超经典的Linux实战项目,让你分分钟入门Linux系统
-
编译安装nginx搭建小游戏网站编译安装流程下载nginx代码wget-P/server/tools/http:nginx.org/download/nginx1.22.0.tar.gz解压并进...
- 权限管理-树莓派linux⑦
-
前言当你在看这篇README,我感到非常荣幸。作为支持开源、分享的理念的我,给大家带来一些学习上的乐趣。由于本人并非专业的教育领域人士,很多时候天马行空,随心所欲的表达方式,可能让部分人感到不适。请根...
- 每天Linux学习:linux文件属性
-
ls-lih先通过这个命令来观察(-l列表显示目录内容详细,-i第一列显示inode,-h将文件大小显示为我们常见的kb,mb等单位)从截图中我们能看出文件属性由这9列信息组成:第1列:inod...
- Linux ln、unlink命令用法
-
ln命令可以用来创建软链接或硬链接。1.创建软链接:ln-s源文件目标文件例如:ln-s/usr/lib/libc.so/usr/local/lib/libc.so.6这样就创建了一...
- Linux 系统启动完整流程
-
一、启动系统流程简介如上图,简述系统启动的大概流程:1:硬件引导UEFi或BIOS初始化,运行POST开机自检2:grub2引导阶段系统固件会从MBR中读取启动加载器,然后将控制权交给启动加载器GRU...
- 最火的 CI/CD 平台 Jenkins 详细搭建教程(for Linux)
-
在正式学习Jenkins之前我们需要对两个名词有一定了解,其一是DevOps,另外一个就是CI/CD。何为DevOps?来自wiki百科介绍DevOps是一系列软件开发实践,强调开发人员(Dev)和测...
- hadoop集群搭建详细方法
-
第一步:搭建配置新的虚拟机格式化之前先把tmp目录下所有与Hadoop有关的信息全部删除rm-rf/tmp/hadoop-centos*开启之后jps只有Java的进程:sudovi/et...
- Linux 常用命令集合
-
系统信息arch显示机器的处理器架构(1)uname-m显示机器的处理器架构(2)uname-r显示正在使用的内核版本dmidecode-q显示硬件系统部件-(SMBIOS/DM...
- inode文件索引,你了解嘛?你的Linux基础真的扎实嘛?
-
一、inode是什么?深入了解inode,就要从文件存储说起来!文件储存在硬盘上,硬盘的最小存储单位叫做"扇区"(Sector)。每个扇区储存512字节。读取硬盘的时候,不会一个个扇区地读取,这样效率...
- linux实例之创建service服务
-
前面我们讲过可以通过service命令来启动,重启,停止指定的服务程序。service服务可以在系统启动时,自动运行该服务,我们可以利用这一特点,创建service文件,并且让系统重启时,自动执行命令...
- linux之软连接和硬连接的区别
-
硬连接硬链接是通过索引节点进行的链接。在Linux中,多个文件指向同一个索引节点是允许的,像这样的链接就是硬链接。硬链接只能在同一文件系统中的文件之间进行链接,不能对目录进行创建。如果删除硬链接对应的...
- Linux inode 详解
-
简介索引节点(IndexNode)是Linux/类unix系统文件系统上的一种数据结构,用于存储有关文件或目录的元数据。它包含文件的所有信息,除了文件名和数据。inode在文件系统如何存储和检...
- Bash 脚本实例:获取符号链接的目标位置
-
我们都熟悉Linux中的符号链接,通常称为符号链接或软链接,符号链接是指向任何文件系统中的另一个文件或目录的特定文件。本文将介绍Linux中符号链接的基础知识,并创建一个简单的bash脚本...
- windows快捷方式,符号链接,软链接和硬链接
-
当一个软件大量的向C盘写入数据,而我们又无法修改软件保存数据的位置时,可以使用windows系统的“符号链接”(SymbolicLink)功能,将保存数据的位置修改到其它分区中。符号链接类似于我们熟...
你 发表评论:
欢迎- 一周热门
-
-
如何在安装前及安装后修改黑群晖的Mac地址和Sn系列号
-
爱折腾的特斯拉车主必看!手把手教你TESLAMATE的备份和恢复
-
[常用工具] OpenCV_contrib库在windows下编译使用指南
-
Ubuntu系统Daphne + Nginx + supervisor部署Django项目
-
WindowsServer2022|配置NTP服务器的命令
-
WIN11 安装配置 linux 子系统 Ubuntu 图形界面 桌面系统
-
解决Linux终端中“-bash: nano: command not found”问题
-
NBA 2K25虚拟内存不足/爆内存/内存占用100% 一文速解
-
Linux 中的文件描述符是什么?(linux 打开文件表 文件描述符)
-
K3s禁用Service Load Balancer,解决获取浏览器IP不正确问题
-
- 最近发表
- 标签列表
-
- linux 查询端口号 (58)
- docker映射容器目录到宿主机 (66)
- 杀端口 (60)
- yum更换阿里源 (62)
- internet explorer 增强的安全配置已启用 (65)
- linux自动挂载 (56)
- 禁用selinux (55)
- sysv-rc-conf (69)
- ubuntu防火墙状态查看 (64)
- windows server 2022激活密钥 (56)
- 无法与服务器建立安全连接是什么意思 (74)
- 443/80端口被占用怎么解决 (56)
- ping无法访问目标主机怎么解决 (58)
- fdatasync (59)
- 405 not allowed (56)
- 免备案虚拟主机zxhost (55)
- linux根据pid查看进程 (60)
- dhcp工具 (62)
- mysql 1045 (57)
- 宝塔远程工具 (56)
- ssh服务器拒绝了密码 请再试一次 (56)
- ubuntu卸载docker (56)
- linux查看nginx状态 (63)
- tomcat 乱码 (76)
- 2008r2激活序列号 (65)