Hadoop 简明教程

Hadoop - Big Data Solutions

Traditional Approach

与此方法类似,一家企业将备有一台计算机来存储和处理海量数据。出于存储的目的,程序员将借助他们的数据库供应商(比如甲骨文和 IBM 等)的选择。在此方法中,用户与应用程序交互,应用程序再处理数据存储和分析部分。

traditional approach

Limitation

此方法对于那些处理少量的标准数据库服务器即可容纳或达到正在处理数据的处理器限制的数据的应用程序来说效果很好。但当处理大量的可扩展数据时,通过单一数据库瓶颈处理此类数据是一件繁重的工作。

Google’s Solution

Google 使用一种称为 MapReduce 的算法解决了此问题。该算法将任务分成小块,并将它们分配给多台计算机,并从它们那里收集结果,这些结果在集成后形成结果数据集。

mapreduce

Hadoop

使用Google提供的解决方案, Doug Cutting 和他的团队开发了一个名为 HADOOP 的开源项目。

Hadoop 使用MapReduce算法运行应用程序,其中数据与其他数据并行处理。简而言之,Hadoop 用于开发可以在海量数据上执行完整统计分析的应用程序。

hadoop framework