[转帖] Hadoop初探之安装Apache Hadoop_Hadoop,ERP及大数据讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛  
网站首页 | 关于我们 | 服务中心 | 经验交流 | 公司荣誉 | 成功案例 | 合作伙伴 | 联系我们 |
联动北方-国内领先的云技术服务提供商
»  游客             当前位置:  论坛首页 »  自由讨论区 »  Hadoop,ERP及大数据讨论区 »
总帖数
1
每页帖数
101/1页1
返回列表
0
发起投票  发起投票 发新帖子
查看: 3855 | 回复: 0   主题: [转帖] Hadoop初探之安装Apache Hadoop        下一篇 
    本主题由 koei123 于 2015-2-6 5:23:33 移动
weiwei.fu
注册用户
等级:上尉
经验:661
发帖:47
精华:0
注册:2013-12-12
状态:离线
发送短消息息给weiwei.fu 加好友    发送短消息息给weiwei.fu 发消息
发表于: IP:您无权察看 2013-12-17 14:13:16 | [全部帖] [楼主帖] 楼主

一、安装
1、JDK
        点击 这里下载JDK,执行如下指令安装JDK:

#rpm -ivh jdk-x.y.z.rpm


        设置JDK环境变量:

#vi /etc/profile


        在最后面加入:

#set java environment
JAVA_HOME=/usr/java/jdk-x.y.z
CLASSPATH=.:$JAVA_HOME/lib/tools.jar
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME CLASSPATH PATH


        执行如下命令检查环境变量设置情况:

#source /etc/profile
#echo $JAVA_HOME
#echo $CLASSPATH
#echo $PATH


        执行如下命令检查JDK是否安装成功:

#java -version
2、Hadoop


        点击 这里下载Apache Hadoop的稳定发布包,再解压到本地文件系统中:

#tar xzf hadoop-x.y.z.tar.gz


        在安装Hadoop之前,需要指定Java在本系统中的路径,即JAVA_HOME环境变量指向一个Java安装:

#echo $JAVA_HOME


        当然这在前面就已经设置过了。
        Hadoop套用Windows上说法就是纯绿色版,解压就算安装了。
        创建一个指向Hadoop安装目录环境变量(比如HADOOP_INSTALL),再把Hadoop安装目录(即解压目录)放在命令行路径上:

#vi /etc/profile
#set hadoop environment
HADOOP_INSTALL=/home/scq/hadoop-x.y.z
PATH=$PATH:$HADOOP_INSTALL/bin
export HADOOP_INSTALL PATH
#source /etc/profile


        可以执行如下命令来验证Hadoop是否运行:

#hadoop version


        需要注意的是,为了避免不必要的麻烦,请在安装Hadoop前一定要确认是否已经安装并设置好了JDK。

二、配置
1、配置文件
        Hadoop的各个组件均可利用XML文件进行配置,其中,core-site.xml文件用于配置Common组件的属性,hdfs-site.xml文件用于配置HDFS属性,而mapred-site.xml文件则用于配置MapReduce属性,这些配置文件都放在etc子目录中。
        此外,在docs子目录中还存放三个HTML文件,即core-default.html、hdfs-default.html和mapred-default.html,它们分别保存各组件的默认属性设置。
2、伪分布模式
        Hadoop有三种 运行模式,这里以伪分布式模式为例,如下来配置伪分布模式:
        (1)core-site.xml

<?xml version="1.0"?>
<!-- core-site.xml -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost/</value>
</property>
</configuration>
(2)hdfs-site.xml
<?xml version="1.0"?>
<!-- hdfs-site.xml -->
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
(3)mapred-site.xml
<?xml version="1.0"?>
<!-- mapred-site.xml -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:8021</value>
</property>
</configuration>


3、配置SSH
        在伪分布模式下工作时必须启动守护进程,而启动守护进程的前提是已经成功安装SSH。Hadoop并不严格区分伪分布模式和全分布模式,它只是启动集群主机集(由slaves文件定义)的守护进程:SSH-ing到各个主机并启动一个守护进程。在伪分布模式下,(单)主机就是本地计算机,因而伪分布模式也可视作全分布模式的一个特例。需要注意的是,必须确保用户能够SSH到本地主机,并不输入密码即可登录。
        首先,确保SSH已经安装,且服务器正在运行,否则,如下来安装SSH:

#yum install openssh-server


        然后,基于空口令创建一个新SSH密钥,以启用无密码登录:

#ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
#cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys


        用以下指令进行测试:

#ssh localhost


        如果成功��则无需键入密码。

三、格式化
        在使用Hadoop之前,必须格式化一个全新的HDFS安装。通过创建存储目录和NameNode持久化数据结构的初始版本,格式化过程创建了一个空的文件系统。由于NameNode管理文件系统的元数据,而DataNode可以动态地加入或离开集群,因此这个格式化过程并不涉及DataNode。同理,用户也无需关注文件系统的规模。集群中DataNode的数量决定着文件系统的规模。DataNode可以在文件系统格式化之后的很长一段时间内按需增加。
        格式化HDFS文件系统非常方便,只需键入如下指令:

#hadoop namenode -format


四、启动和终止
1、启动        
        为了启动HDFS和MapReduce守护进程,只需键入如下指令:

#cd hadoop-2.2.0/sbin
#./start-dfs.sh
#./start-mapred.sh


        如果配置文件没有在默认的etc子目录中,则在启动守护进程时使用--config选项,该选项采用绝对路径指向配置目录:

#./start-dfs.sh --config path-to-config-directory
#./start-mapred.sh --config path-to-config-directory


        本地计算机将启动三个守护进程:一个namenode、一个辅助namenode和一个datanode。可以浏览logs目录(在Hadoop安装目录)中的日志文件来检查守护进程是否成功启动,或通过Web界面,在http://localhost:50030/查看jobtracker或在http://localhost:50070/查看namenode。此外,Java的jps命令也能查看守护进程是否在在运行。
2、终止
        终止守护进程也很容易,执行如下指令即可:

#./stop-dfs.sh
#./stop-mapred.sh


原文摘自:

http://blog.chinaunix.net/uid-22312037-id-3993641.html


该贴由koei123转至本版2015-2-6 5:23:07

该贴由koei123转至本版2015-2-6 5:23:33




赞(0)    操作        顶端 
总帖数
1
每页帖数
101/1页1
返回列表
发新帖子
请输入验证码: 点击刷新验证码
您需要登录后才可以回帖 登录 | 注册
技术讨论