[转帖]hadoop读书笔记MapReduce执行流程_Hadoop，ERP及大数据讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛

总帖数

每页帖数

1/1页

返回列表

发起投票

查看: 3824 | 回复: 0

主题： [转帖]hadoop读书笔记MapReduce执行流程

huizai

注册用户

等级：少校
经验：933
发帖：83
精华：0
注册：2013-6-18
状态：离线
发送短消息息给huizai

加好友发送短消息息给huizai

发消息

发表于：

2013-6-26 16:50:07 | [全部帖] [楼主帖]

楼主

1、提交作业：主要执行函数submitJob();

① 通过调用jobTracker对象的getNewJobId()方法从JobTracker处理取当前作业的ID号；

② 检查作业相关路径。

③ 计算作业的出入划分，并将划分信息写入Job.split文件中。如果吸入失败就会返回错误信息。

④ 将运行作业所需要的资源---包括作业JAR文件，配置文件和计算所得的输入划分等—复制到作业对应的HDFS上。

⑤ 调用JobTracker对象的submitJob（）方法来真正提交作业；

2、初始化作业---作业提交后JobTracker会把此调用方法内部TaskScheduler变量中，然后进行调度。当作业被调度执行时，JobTracker会创建一个代表这个作业的JobInprogress对象。JobInProgress对象的initTasks函数会对人物进行初始化。

① 从HDFS中读取作业对应的Job.split；

② 创建并初始化Map和Reduce任务

③ 初始化两个task;

3、分配任务：

taskTracker作业为一个单独的JVM执行一个简单的循环。主要实现每隔一段时间向jobTracker发送心跳：告诉JobTracker此TaskTracker是否存活，是否准备执行新的任务。JobTracker接受到心跳信息。如果有待分配任务。它就会为TaskTracker分配一个任务并将分配信息封装在新掉通信的返回值中返回给TaskTracker；

4、执行任务：

TaskTracker申请到新的任务之后，就要在本地运行任务了。运行任务的第一步是

任务本地化—将任务运行所需要的数据配置信息、程序代码从HDFS复制到TaskTracker本地；

5、更新任务执行进度和状态

通过心跳通信机制，所有TaskTracker的统计信息都会汇总到JobTracker处JobClient通过每秒查看JobTracker来接受作业进度的最新状态。