[转帖] Hadoop初探之安装Apache Hadoop_Hadoop，ERP及大数据讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛

总帖数

每页帖数

1/1页

返回列表

发起投票

查看: 4297 | 回复: 0

主题： [转帖] Hadoop初探之安装Apache Hadoop

本主题由 koei123 于 2015-2-6 5:23:33 移动

weiwei.fu

注册用户

等级：上尉
经验：661
发帖：47
精华：0
注册：2013-12-12
状态：离线
发送短消息息给weiwei.fu

加好友发送短消息息给weiwei.fu

发消息

发表于：

2013-12-17 14:13:16 | [全部帖] [楼主帖]

楼主

一、安装
1、JDK
点击这里下载JDK，执行如下指令安装JDK：

#rpm -ivh jdk-x.y.z.rpm

设置JDK环境变量：

#vi /etc/profile

在最后面加入：

#set java environment
JAVA_HOME=/usr/java/jdk-x.y.z
CLASSPATH=.:$JAVA_HOME/lib/tools.jar
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME CLASSPATH PATH

执行如下命令检查环境变量设置情况：

#source /etc/profile
#echo $JAVA_HOME
#echo $CLASSPATH
#echo $PATH

执行如下命令检查JDK是否安装成功：

#java -version
2、Hadoop

点击这里下载Apache Hadoop的稳定发布包，再解压到本地文件系统中：

#tar xzf hadoop-x.y.z.tar.gz

在安装Hadoop之前，需要指定Java在本系统中的路径，即JAVA_HOME环境变量指向一个Java安装：

#echo $JAVA_HOME

      当然这在前面就已经设置过了。
      Hadoop套用Windows上说法就是纯绿色版，解压就算安装了。
      创建一个指向Hadoop安装目录环境变量（比如HADOOP_INSTALL），再把Hadoop安装目录（即解压目录）放在命令行路径上：

#vi /etc/profile
#set hadoop environment
HADOOP_INSTALL=/home/scq/hadoop-x.y.z
PATH=$PATH:$HADOOP_INSTALL/bin
export HADOOP_INSTALL PATH
#source /etc/profile

可以执行如下命令来验证Hadoop是否运行：

#hadoop version

      需要注意的是，为了避免不必要的麻烦，请在安装Hadoop前一定要确认是否已经安装并设置好了JDK。

二、配置
1、配置文件
      Hadoop的各个组件均可利用XML文件进行配置，其中，core-site.xml文件用于配置Common组件的属性，hdfs-site.xml文件用于配置HDFS属性，而mapred-site.xml文件则用于配置MapReduce属性，这些配置文件都放在etc子目录中。
      此外，在docs子目录中还存放三个HTML文件，即core-default.html、hdfs-default.html和mapred-default.html，它们分别保存各组件的默认属性设置。
2、伪分布模式
      Hadoop有三种运行模式，这里以伪分布式模式为例，如下来配置伪分布模式：
      （1）core-site.xml

<?xml version="1.0"?>

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost/</value>
</property>
</configuration>
（2）hdfs-site.xml
<?xml version="1.0"?>

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
（3）mapred-site.xml
<?xml version="1.0"?>

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:8021</value>
</property>
</configuration>

3、配置SSH
在伪分布模式下工作时必须启动守护进程，而启动守护进程的前提是已经成功安装SSH。Hadoop并不严格区分伪分布模式和全分布模式，它只是启动集群主机集（由slaves文件定义）的守护进程：SSH-ing到各个主机并启动一个守护进程。在伪分布模式下，（单）主机就是本地计算机，因而伪分布模式也可视作全分布模式的一个特例。需要注意的是，必须确保用户能够SSH到本地主机，并不输入密码即可登录。
首先，确保SSH已经安装，且服务器正在运行，否则，如下来安装SSH：

#yum install openssh-server

然后，基于空口令创建一个新SSH密钥，以启用无密码登录：

#ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
#cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

用以下指令进行测试：

#ssh localhost

      如果成功��则无需键入密码。

三、格式化
      在使用Hadoop之前，必须格式化一个全新的HDFS安装。通过创建存储目录和NameNode持久化数据结构的初始版本，格式化过程创建了一个空的文件系统。由于NameNode管理文件系统的元数据，而DataNode可以动态地加入或离开集群，因此这个格式化过程并不涉及DataNode。同理，用户也无需关注文件系统的规模。集群中DataNode的数量决定着文件系统的规模。DataNode可以在文件系统格式化之后的很长一段时间内按需增加。
      格式化HDFS文件系统非常方便，只需键入如下指令：

#hadoop namenode -format

四、启动和终止
1、启动
为了启动HDFS和MapReduce守护进程，只需键入如下指令：

#cd hadoop-2.2.0/sbin
#./start-dfs.sh
#./start-mapred.sh

如果配置文件没有在默认的etc子目录中，则在启动守护进程时使用--config选项，该选项采用绝对路径指向配置目录：

#./start-dfs.sh --config path-to-config-directory
#./start-mapred.sh --config path-to-config-directory

本地计算机将启动三个守护进程：一个namenode、一个辅助namenode和一个datanode。可以浏览logs目录（在Hadoop安装目录）中的日志文件来检查守护进程是否成功启动，或通过Web界面，在http://localhost:50030/查看jobtracker或在http://localhost:50070/查看namenode。此外，Java的jps命令也能查看守护进程是否在在运行。
2、终止
终止守护进程也很容易，执行如下指令即可：

#./stop-dfs.sh
#./stop-mapred.sh

原文摘自：

http://blog.chinaunix.net/uid-22312037-id-3993641.html

该贴由koei123转至本版2015-2-6 5:23:07

该贴由koei123转至本版2015-2-6 5:23:33