[转帖]Hadoop发展现状与Hadoop in China大会_Hadoop,ERP及大数据讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛  
网站首页 | 关于我们 | 服务中心 | 经验交流 | 公司荣誉 | 成功案例 | 合作伙伴 | 联系我们 |
联动北方-国内领先的云技术服务提供商
»  游客             当前位置:  论坛首页 »  自由讨论区 »  Hadoop,ERP及大数据讨论区 »
总帖数
1
每页帖数
101/1页1
返回列表
0
发起投票  发起投票 发新帖子
查看: 3175 | 回复: 0   主题: [转帖]Hadoop发展现状与Hadoop in China大会        下一篇 
shuangqiang.xing
注册用户
等级:上尉
经验:737
发帖:64
精华:0
注册:2013-10-30
状态:离线
发送短消息息给shuangqiang.xing 加好友    发送短消息息给shuangqiang.xing 发消息
发表于: IP:您无权察看 2013-11-4 9:34:41 | [全部帖] [楼主帖] 楼主

     Apache Nutch是Hadoop的源头,该项目始于2002年,是Apache Lucene 的子项目之一。至2004年,Google在OSDI上公开发表了题为“MapReduce: Simplified Data Processing on Large Clusters”的论文,受到启发的Doug Cutting等人开始实现MapReduce计算框架并与NDFS(Nutch Distributed File System)结合支持Nutch的主要算法。至2006年逐渐成为一套完整而独立的软件,起名为Hadoop。2008年初,Hadoop成为 Apache的顶级项目,应用到除Yahoo!以外的很多互联网公司。

    Hadoop主要提供了一套名为HDFS的分布式文件系统以及支持Map-Reduce的计算框架。此外,还提供构建在HDFS 和Map/Reduce之上的可扩展的数据仓库Hive,结构化数据库HBase,数据流高层语言Pig,高性能分布式协同服务ZooKeeper,以及 面向大规模分布式系统的数据收集软件Chukwa等。

    Hadoop技术已经在互联网领域得以广泛的应用,同时也得到研究界的普遍关注。如Yahoo!使用4000节点的机群运行Hadoop,支持广告系统和 Web搜索的研究;Facebook使用1000节点的机群运行Hadoop,存储日志数据,支持其上的数据分析和机器学习;百度用Hadoop处理每周 200TB的数据,进行搜索日志分析和网页数据挖掘工作;中移动研究院基于Hadoop开发了“大云”(BigCloud)系统,不但用于相关数据分析, 还对外提供服务;淘宝的Hadoop系统用于存储并处理电子商务的交易相关数据。国内的高校和科研院所基于Hadoop在数据存储、资源管理、作业调度、 性能优化、系统高可用性和安全性方面进行研究,相关研究成果多以开源形式贡献给Hadoop社区。

    在国内最早运用Hadoop技术的是互联网公司,因为Hadoop是开源软件,当时国内尚无针对Hadoop的交流平台,Hadoop in China志愿者社区正是在这样的形势下自然形成的。Hadoop in China大会是这个志愿者社区的窗口,其前身是Hadoop技术沙龙。第一次举办沙龙是在2008年11月23日,目的是为了让更多的Hadoop技术 爱好者能够互相认识,并能够在一起交流学术和技术心得。会议邀请了Yahoo!、Facebook、百度等互联网企业的资深技术人员到场讲解了 Hadoop技术的原理、应用和很多内部技术细节。经过两年多的努力,Hadoop in China大会已逐渐成为集技术研讨、交流和成果展示为一身的综合性技术交流平台,Hadoop in China 志愿者社区已成为国内推广Hadoop技术的重要力量之一。感谢为Hadoop in China 社区做出贡献的公司、单位和个人!




赞(0)    操作        顶端 
总帖数
1
每页帖数
101/1页1
返回列表
发新帖子
请输入验证码: 点击刷新验证码
您需要登录后才可以回帖 登录 | 注册
技术讨论