Hadoop 简明教程

Hadoop - Big Data Overview

由于新技术、设备以及像社交网站那样的通信手段的出现,人类制作的数据量每年都在快速增长。我们从时间开始到 2003 年产生数据的数量为 50 亿千兆字节。如果将数据以磁盘的形式堆叠起来,它可以填满整个足球场。同等数量的数据在 2011 中每两天产生一次,在 2013 中每十分钟产生一次。这个比率仍在剧烈增长。尽管产生的所有这些信息都是有意义的,并且在处理时可能是有用的,但它却被忽视了。

What is Big Data?

Big data 是大量数据集的集合,无法使用传统计算技术进行处理。它不是单一技术或工具,而是一个完整的学科,其包括各种工具、技术和框架。

What Comes Under Big Data?

大数据涉及由不同设备和应用程序生成的数据。以下是属于大数据保护范围的一些领域。

  1. Black Box Data − 它是直升飞机、飞机和喷气式飞机等的组件。它捕捉飞行员的声音、麦克风和耳机的录音以及飞机的性能信息。

  2. Social Media Data − Facebook 和 Twitter 等社交媒体包含全球数百万用户发布的信息和观点。

  3. Stock Exchange Data − 股票交易所数据包含客户针对不同公司的股票做出的“买入”和“卖出”决策信息。

  4. Power Grid Data − 电网数据包含特定节点相对于基站消耗的信息。

  5. Transport Data − 交通数据包括车辆的型号、容量、距离和可用性。

  6. Search Engine Data − 搜索引擎从不同数据库检索大量数据。

big data

因此,大数据包含海量、高速和可扩展性多种数据。其中数据有三种类型。

  1. Structured data − 关系数据。

  2. Semi Structured data − XML 数据。

  3. Unstructured data − Word、PDF、文本、媒体日志。

Benefits of Big Data

  1. 营销机构会使用 Facebook 等社交网络中保存的信息,了解其活动、促销和其他广告媒体的响应。

  2. 产品公司和零售组织会使用社交媒体中的信息,例如消费者的偏好和产品认知,来规划其生产。

  3. 医院会使用患者既往病史相关数据来提供更好、更快的服务。

Big Data Technologies

大数据技术对于提供更准确的分析非常重要,这可能导致更具体决策,从而提高运营效率、降低成本,并降低业务风险。

为了利用大数据的强大优势,你需要一个基础结构,该基础结构可以实时管理和处理海量的结构化和非结构化数据,并且可以保护数据隐私和安全性。

市场上有许多来自不同供应商(包括 Amazon、IBM、Microsoft 等)的各种技术来处理大数据。在研究用于处理大数据的技术时,我们会研究以下两类技术 −

Operational Big Data

这包括诸如 MongoDB 之类的系统,这些系统提供了可针对实际、交互式工作负载(其中数据会首先捕获和存储)的操作功能。

NoSQL 大数据系统被设计用于利用在过去十年间出现的新的云计算架构,以实现经济高效地运行大规模计算。这让在操作大数据工作负载时更容易管理、成本更低、实施起来更快。

一些 NoSQL 系统能够基于实时数据以最少编码并无需数据科学家和额外基础结构来洞察模式和趋势。

Analytical Big Data

这些包括诸如海量并行处理 (MPP) 数据库系统和 MapReduce 之类的系统,这些系统为可能涉及大多数或所有数据的回顾和复杂分析提供了分析功能。

MapReduce 提供了一种新型数据分析方法,它补充了 SQL 所提供的功能,并提供了基于 MapReduce 的系统,该系统可以从单台服务器扩展到数千台高端和低端机器。

这两类技术是互补的,经常一起部署。

Operational vs. Analytical Systems

Operational

Analytical

Latency

1 毫秒 - 100 毫秒

1 分钟 - 100 分钟

Concurrency

1000 - 100,000

1 - 10

Access Pattern

Writes and Reads

Reads

Queries

Selective

Unselective

Data Scope

Operational

Retrospective

End User

Customer

Data Scientist

Technology

NoSQL

MapReduce, MPP Database

Big Data Challenges

大数据相关的重大挑战如下 −

  1. Capturing data

  2. Curation

  3. Storage

  4. Searching

  5. Sharing

  6. Transfer

  7. Analysis

  8. Presentation

为了应对上述挑战,组织通常会借助企业服务器。