Hadoop到底能做什么?怎么用hadoop?_Hadoop,ERP及大数据讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛  
网站首页 | 关于我们 | 服务中心 | 经验交流 | 公司荣誉 | 成功案例 | 合作伙伴 | 联系我们 |
联动北方-国内领先的云技术服务提供商
»  游客             当前位置:  论坛首页 »  自由讨论区 »  Hadoop,ERP及大数据讨论区 »
总帖数
2
每页帖数
101/1页1
返回列表
0
发起投票  发起投票 发新帖子
查看: 3236 | 回复: 1   主题:  Hadoop到底能做什么?怎么用hadoop?        上一篇   下一篇 
我的个神啊
注册用户
等级:列兵
经验:102
发帖:3
精华:0
注册:2015-5-22
状态:离线
发送短消息息给我的个神啊 加好友    发送短消息息给我的个神啊 发消息
发表于: IP:您无权察看 2016-3-30 10:58:35 | [全部帖] [楼主帖] 楼主

hadoop是什么?
   

(1)Hadoop是一个开源的框架,可编写和运行分不是应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事

务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上

与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/value是基本数据单元。用函数式变成Mapreduce

代替SQL,SQL是查询语句,而Mapreduce则是使用脚本和代码,而对于适用于关系型数据库,习惯SQL的Hadoop有开源工具hive代替。
   

(2)Hadoop就是一个分布式计算的解决方案.


hadoop能做什么?
   

hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中的自定义筛选也

使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝

的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。(2012年8月25新更新,天猫的推荐系统是

hive,少量尝试mahout!)


下面举例说明:

设想一下这样的应用场景. 我有一个100M 的数据库备份的sql 文件.我现在想在不导入到数据库的情况下直接用grep操作通过正则过滤出我想要的内容。例

如:某个表中 含有相同关键字的记录那么有几种方式,一种是直接用linux的命令 grep 还有一种就是通过编程来读取文件,然后对每行数据进行正则匹配得到结

果好了。现在是100M 的数据库备份.上述两种方法都可以轻松应对.


那么如果是1G , 1T 甚至 1PB 的数据呢 ,上面2种方法还能行得通吗? 答案是不能.毕竟单台服务器的性能总有其上限.那么对于这种超大数据文件怎么得到我

们想要的结果呢?


有种方法 就是分布式计算, 分布式计算的核心就在于利用分布式算法把运行在单台机器上的程序扩展到多台机器上并行运行.从而使数据处理能力成倍增加.但

是这种分布式计算一般对编程人员要求很高,而且对服务器也有要求.导致了成本变得非常高.


Hadoop 就是为了解决这个问题诞生的.Hadoop 可以很轻易的把很多linux的廉价pc 组成分布式结点,然后编程人员也不需要知道分布式算法之类,只需要根据

mapreduce的规则定义好接口方法,剩下的就交给Haddop. 它会自动把相关的计算分布到各个结点上去,然后得出结果.
       

例如上述的例子 : Hadoop 要做的事首先把1PB的数据文件导入到 HDFS中, 然后编程人员定义好 map和reduce, 也就是把文件的行定义为key,每行的内容定义

为value , 然后进行正则匹配,匹配成功则把结果通过reduce聚合起来返回.Hadoop 就会把这个程序分布到N个结点去并行的操作.那么原本可能需要计算好几天,

在有了足够多的结点之后就可以把时间缩小到几小时之内. 这也就是所谓的 大数据 云计算了.如果还是不懂的话再举个简单的例子;比如 1亿个1相加得出计算

结果, 我们很轻易知道结果是 1亿.但是计算机不知道.那么单台计算机处理的方式做一个一亿次的循环每次结果+1,那么分布式的处理方式则变成我用1万台计算

机,每个计算机只需要计算 1万个 1 相加 然后再有一台计算机把 1万台计算机得到的结果再相加从而得到最后的结果.


理论上讲, 计算速度就提高了1万倍. 当然上面可能是一个不恰当的例子.但所谓分布式,大数据,云计算大抵也就是这么回事了.


hadoop能为我司做什么?

零数据基础,零数据平台,一切起点都是0。

日志处理

用户细分特征建模

个性化广告推荐

智能仪器推荐

一切以增加企业的商业价值为核心目的、最终目的


怎么用hadoop?

   

hadoop的应用的在我司还属于研发型项目,拟用日志的分析来走通一次流程,因为此阶段目前来说还不需要数据挖掘的专业人员,在数据分析阶段即可,而系统

有数据库工程师,Mapreduce有java开发工程师,而分析由我本人介入,而可视化暂时可由前端JS实现,本来我的调研方案,针对大数据的解决方案是hadoop+R

的,但是对于R我们是完全不懂,在公司还没有大量投入人员的情况下,只有日志分析目前看来是最容易出成果的,也是可以通过较少人员能出一定成果的,所

以选取了这个方向作为试点。












赞(0)    操作        顶端 
黑色拖鞋
注册用户
等级:列兵
经验:116
发帖:0
精华:0
注册:2016-3-23
状态:离线
发送短消息息给黑色拖鞋 加好友    发送短消息息给黑色拖鞋 发消息
发表于: IP:您无权察看 2016-3-30 22:32:43 | [全部帖] [楼主帖] 2  楼

ok



赞(0)    操作        顶端 
总帖数
2
每页帖数
101/1页1
返回列表
发新帖子
请输入验证码: 点击刷新验证码
您需要登录后才可以回帖 登录 | 注册
技术讨论