[转帖]hadoop学习笔记_Hadoop,ERP及大数据讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛  
网站首页 | 关于我们 | 服务中心 | 经验交流 | 公司荣誉 | 成功案例 | 合作伙伴 | 联系我们 |
联动北方-国内领先的云技术服务提供商
»  游客             当前位置:  论坛首页 »  自由讨论区 »  Hadoop,ERP及大数据讨论区 »
总帖数
1
每页帖数
101/1页1
返回列表
0
发起投票  发起投票 发新帖子
查看: 3155 | 回复: 0   主题: [转帖]hadoop学习笔记        下一篇 
huizai
注册用户
等级:少校
经验:933
发帖:83
精华:0
注册:2013-6-18
状态:离线
发送短消息息给huizai 加好友    发送短消息息给huizai 发消息
发表于: IP:您无权察看 2013-6-19 15:10:15 | [全部帖] [楼主帖] 楼主

1、Hadoop能解决哪些问题:

海量数据需要及时分析和处理,

海量数据需要深入分析和挖掘,

数据需要长期保存。

问题:

磁盘IO成为一种瓶颈,而非CPU资源,

网络宽带是一种稀缺资源,

硬件故障成为影响稳定的一大因素。

2、Hadoop生态系统

实现Hbase(NoSql数据库,key-value存储),可以最大化利用内存
实现HDFS,可以最大化利用磁盘
实现MapReduce,可以最大化利用CPU

北京联动北方科技有限公司

3、HDFS

基本概念:HDFS(Hadoop Distributed File System)是一个很好的分布式文件系统,默认的最基本的存储单位是64M的数据块(block),和普通文件系统相同的是,HDFS中的文件是被分成64M一块的的数据块存储的;不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。可通过副本机制提高可靠度和读取吞吐量,每个区块默认分到三台DataNode(启动DataNode的时候会向NameNode汇报block信息--三秒一次,如果NameNode10分钟没有收到DataNode的发送响应,则会认为DataNode已经lost,并copy自身的block到其它DataNode)上,单一的master(NameNode--提供名称查询服务,是一个jetty服务器)来协调存储元数据(metadata--会在启动后加载到内存);客户端对文件没有缓存机制。block的副本放置策略:第一个副本,放置在上传文件的DataNode,如果是集群外提交则随机挑选一台磁盘不太慢CPU不太忙的节点;第二个副本,放置在与第一个副本不同的机架节点上;第三个副本,与第二个副本相同集群的节点;其他副本,随机节点。具体HDFS详解可参考http://www.cnblogs.com/chinacloud/archive/2010/12/03/1895369.html

原帖地址:http://my.oschina.net/u/817908/blog/118969




赞(0)    操作        顶端 
总帖数
1
每页帖数
101/1页1
返回列表
发新帖子
请输入验证码: 点击刷新验证码
您需要登录后才可以回帖 登录 | 注册
技术讨论