[转帖]程学旗:Hadoop平台存在三个方面的挑战_Hadoop,ERP及大数据讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛  
网站首页 | 关于我们 | 服务中心 | 经验交流 | 公司荣誉 | 成功案例 | 合作伙伴 | 联系我们 |
联动北方-国内领先的云技术服务提供商
»  游客             当前位置:  论坛首页 »  自由讨论区 »  Hadoop,ERP及大数据讨论区 »
总帖数
1
每页帖数
101/1页1
返回列表
0
发起投票  发起投票 发新帖子
查看: 3285 | 回复: 0   主题: [转帖]程学旗:Hadoop平台存在三个方面的挑战        下一篇 
shuangqiang.xing
注册用户
等级:上尉
经验:737
发帖:64
精华:0
注册:2013-10-30
状态:离线
发送短消息息给shuangqiang.xing 加好友    发送短消息息给shuangqiang.xing 发消息
发表于: IP:您无权察看 2013-11-4 9:33:16 | [全部帖] [楼主帖] 楼主

     由中科院计算所主办“第四届Hadoop in china 2010中国云计算大会”9月4日在京召开。本次大会将有千余名Hadoop云计算技术精英与会交流,十余家知名互联网企业倾情出场,以及多位行业领袖的深度演讲。IT168将为您带来实时的精彩资讯。

     大规模数据处理的算法挑战

    程学旗从两个角度探讨了Hadoop应用,一个是规模增长对Web规模数据处理算法的挑战。他认为面对这么大的网络和大规模的数据节点,如何找到合适的算法和处理策略是很重要同时也是一个巨大的挑战。理论跟实践的结合也是很重要的,有些算法可能很好,但是在实践中未必会发挥实际作用。程学旗认为现在对数据的分析大概方法就是密度估计、分析、分类、检测等等,他表示数据算法以后也会有很多很多,但是这些算法能否有通用的机制进行性能质的改进,本质上他做一些提升,有没有这样的机制?这是一个非常大的挑战。 程学旗认为算法和数据的一些认识和方法能否产生价值和作用可以从两个方面考虑:第一现在的算法网络化之后我们要重新思考这个算法机制的问题,第二,云计算能不能对这些算法进行有效的支持。

    针对算法问题程学旗也举了两个技术,第一个是推荐技术,比如说一个人从行为的开发性买了啤酒、尿布、牛奶,从网上处理的时候这个规模非常大,但实际上放到我们模型上非常的稀疏。这个时候以计算的视角,大规模的系统空间里面要从不同的视角考虑怎么样去移植云计算,如果说最优化的方法是按方的话,那么在多视角情况下可能要按立方求解。第二个是网络社区,比如说在QQ群里面有不同的社区,有一些社区是显示存在的,有些是隐性的,而且交织在一起的。所以社区现象是网络信息的分布,网络形态的一个基本的现象。这个基本的现象为什么要进行研究?从商业价值来看,对这种产品的推广,提高朋友的推荐,环境的推荐、用户黏性增强都很有价值。但是做一个社区分析如果把它变成一个简单从物理来看是一个很简单的思路,比如说一个网络的点,这些最简单的办法就是用有效的方法去连接稠密给它找出来。当然在互联网里面,在Web情况下,它实际上也是一个大规模稀疏这样一个网络。在稀疏网络里面去发现社区,实际上它是一种指数型的方法。程学旗认为算法自身也面临一些困境,这些都需要大家一起来解决。

    大规模数据处理的维度问题

    程学旗说到的第二个问题就是维度问题。最简单的就是搜索,在搜索中,下一个空间模型,一个文本下一个空间可能是十万以上,高维度就可能带来维数灾难,而随着维数的增加,就会极大地增多问题的处理难度,同时也会大大降低时效性。对于这种高纬度数据,压缩技术也显得很重要,程学旗认为可以参考基于有效的纬度的约减的压缩,该压缩方式本身也可以去噪音。除此之外数据挖掘也是一项重点,挖掘就包括:广告挖掘、文本挖掘、图象检索、入侵检测、电板设计等等。

    Hadoop存在三个方面的挑战。

    程学旗认为Hadoop现在还是不够成熟,主要表现在以下三个方面:首先在数据存储方面,低成本可扩展的问题。程学旗从公开的数据看到就是在Hadoop目前集群中裸数据的容量12P左右,每天的增加的商业数据是20T-30T。这样每天的更新就带来存储管理上的挑战与压力。第二是文件和数据的管理方面,程学旗介绍说我们在Hadoop上看到一些老的数据,比如说Flicr的文件是30亿张图片,Facebook是600亿张图片。怎么样做到这种大规模小文件和大文件的并存的情况下如何做到管理的灵活性、方便性和性能高效,这实际上是目前我们很多商业化云计算平台需要重点要解决一个问题。也就是说如何构建支持高效率存储访问的大规模的小文件管理,以及大文件和小文件如何共同管理,这是目前海量数据存储面临一个问题。最后就是基于MR数据计算的问题。程学旗介绍在大的任务分发的时候,每一个MAP需要传输一个文件过去,每次都需要一个磁盘的I/O和一次网络传输,当多个Reduce同时读取同一个节点上的MAP输出数据时磁盘带宽将形成瓶颈,极大的降低通信性能。所以如何在支持运行时容错的同时进行高效数据传输,分布式数据处理平台如何更好的支持复杂算法?

    程学旗今天的演讲中主要讲了两个圈子里的人:做算法、分析的圈子和做架构、设计的圈子。这两个不同的圈子现在已经开始在思考他们怎么样结合了。当然至少现在还没有很好的突破点,未来的话也许是一个巨大的挑战。最后程学旗表示中科院计算所将大力支持开源。




赞(0)    操作        顶端 
总帖数
1
每页帖数
101/1页1
返回列表
发新帖子
请输入验证码: 点击刷新验证码
您需要登录后才可以回帖 登录 | 注册
技术讨论