Hadoop层级队列组织方式_Hadoop,ERP及大数据讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛  
网站首页 | 关于我们 | 服务中心 | 经验交流 | 公司荣誉 | 成功案例 | 合作伙伴 | 联系我们 |
联动北方-国内领先的云技术服务提供商
»  游客             当前位置:  论坛首页 »  自由讨论区 »  Hadoop,ERP及大数据讨论区 »
总帖数
2
每页帖数
101/1页1
返回列表
0
发起投票  发起投票 发新帖子
查看: 3348 | 回复: 1   主题: Hadoop层级队列组织方式        上一篇   下一篇 
linjun
注册用户
等级:中校
经验:2221
发帖:176
精华:2
注册:2013-1-6
状态:离线
发送短消息息给linjun 加好友    发送短消息息给linjun 发消息
发表于: IP:您无权察看 2015-12-15 17:12:40 | [全部帖] [楼主帖] 楼主

在Hadoop 0.20.x版本或者更早的版本,Hadoop采用了平级队列组织方式,在这种组织方式中,管理员可将用户分到若干个扁平队列中,在每个队列中,可指定

一个或几个队列管理员管理这些用户,比如杀死任意用户的作业,修改任意用户作业的优先级。然而,从资源管理角度看,仅仅按照队列组织用户是不够的,还

需要将资源划分到这几个队列中,并按照一定的策略完成资源分配,这就需要Hadoop作业调度器的支持。总之,在Hadoop中,队列的组织是队列管理和资源分配

的基础。


随着Hadoop应用越来越广泛,有用户提出需支持层级队列组织方式。典型的应用场景如下:在一个Hadoop集群中,管理员将所有计算资源划分给了若干个队列,

每个队列对应了一个“组织”,其中有一个组织“Org1”,它分到了60%的资源,它内部包含3中类型的作业:

(1)产品线作业

(2)实验性作业—分属于三个不用的项目:Proj1,Proj2和Proj3

(3)其他类型作业

Org1管理员想更有效地控制这60%资源,比如将大部分资源分配给产品线作业的同时,能够让实验性作业和其他类型作业有最少资源保证。考虑到产品线作业提

交频率很低,当有产品线作业提交时,必须第一时间得到资源,剩下的资源才给其他类型的作业,然而,一旦产品线作业运行结束,实验性作业和其他类型作业

必须马上获取未使用的资源,一个可能的配置方式如下:

grid {
Org1 min=60% {
priority min=90% {
production min=82%
proj1 min=6% max=10%
proj2 min=6%
proj3 min=6%
}
miscellaneous min=10%
}
Org2 min=40%
}


这就引出来层级队列组织方式。


(1) 子队列

1)  队列可以嵌套,每个队列均可以包含子队列。

2)  用户只能将作业提交到最底层的队列,即叶子队列。


(2)最少容量

1)每个子队列均有一个“最少容量比”属性,表示可以使用父队列的容量的百分比

2)调度器总是优先选择当前资源使用率最低的队列,并为之分配资源。比如同级的两个队列Q1和Q2,他们的最少容量均为30,而Q1已使用10,Q2已使用12,则

调度器会优先将资源分配给Q1。

3)最少容量不是“总会保证的最低容量”,也就是说,如果一个队列的最少容量为20,而该队列中所有队列仅使用了5,那么剩下的15可能会分配给其他需要的

队列。

4)最少容量的值为不小于0的数,但也不能大于“最大容量”。


(3) 最大容量

1)为了防止一个队列超量使用资源,可以为队列设置一个最大容量,这是一个资源使用上限,任何时刻使用的资源总量不能超过该值。

2)默认情况下队列的最大容量是无限大,这意味着,当一个队列只分配了20%的资源,所有其他队列没有作业时,该队列可能使用100%的资源,当其他队列有

作业提交时,再逐步归还。


如何将一个队列中的资源分配给它的各个子队列?


当一个TaskTracker发送心跳请求一个新任务时,调度器会按照以下策略为之选择任务:

1)按照 比值{used capacity}/{minimum-capaity},对所有子队列排序;

2)选择一个比值{used capacity}/{minimum-capaity}最小的队列:

如果是一个叶子队列,且有处于pending状态的任务,则选择一个任务(不能超过maximum capacity);否则,递归地从这个队列的子队列中选择任务。

3)如果没有找到任务,则查看下一个队列。

层级队列组织方式在 0.21.x和0.22.x中引入,但仅有Capacity Scheduler支持该组织方式,当然,最新的YARN(Hadoop 0.23.x和2.0.x-alpha)也为Fair 

Scheduler增加了层级队列的支持。


如何配置?


以0.21.x为例,管理员可在配置文件mapred-queues.xml中配置层级队列,配置方式如下:

<queues>
<queue>
<name>Org1</name>
<queue>
<name>production</name>
<properties>
<property key=”capacity” value=”20″/>
<property key=” maximum-capacity” value=”20″/>
<property key=”supports-priority” value=”true”/>
<property key=”minimum-user-limit-percent” value=”30″/>
<property key=”maximum-initialized-jobs-per-user” value=”10″/>
<property key=”user-limit” value=”30″/>
</properties>
</queue>
<queue>
<name>miscellaneous</name>
<properties>
<property key=”capacity” value=”10″/>
<property key=” maximum-capacity” value=”20″/>
<property key=”user-limit” value=”20″/>
</properties>
</queue>
。。。。。。。
</queues>


管理员可在capacity-scheduler.xml中设置一些参数的默认值和Capacity独有的配置:

<configuration>
<property>
<name>mapred.capacity-scheduler.default-supports-priority</name>
<value>false</value>
</property>
<property>
<name>mapred.capacity-scheduler.default-minimum-user-limit-percent</name>
<value>100</value>
</property>
<property>
<name>mapred.capacity-scheduler.default-maximum-initialized-jobs-per-user</name>
<value>2</value>
</property>
<property>
<name>mapred.capacity-scheduler.init-poll-interval</name>
<value>5000</value>
</property>
<property>
<name>mapred.capacity-scheduler.init-worker-threads</name>
<value>5</value>
</property>
</configuration>










赞(0)    操作        顶端 
东西南北
注册用户
等级:少校
经验:1161
发帖:16
精华:0
注册:2015-10-10
状态:离线
发送短消息息给东西南北 加好友    发送短消息息给东西南北 发消息
发表于: IP:您无权察看 2015-12-15 22:54:46 | [全部帖] [楼主帖] 2  楼

谢谢楼主的分享



赞(0)    操作        顶端 
总帖数
2
每页帖数
101/1页1
返回列表
发新帖子
请输入验证码: 点击刷新验证码
您需要登录后才可以回帖 登录 | 注册
技术讨论