Hadoop 简明教程
Hadoop - Big Data Overview
由于新技术、设备以及像社交网站那样的通信手段的出现,人类制作的数据量每年都在快速增长。我们从时间开始到 2003 年产生数据的数量为 50 亿千兆字节。如果将数据以磁盘的形式堆叠起来,它可以填满整个足球场。同等数量的数据在 2011 中每两天产生一次,在 2013 中每十分钟产生一次。这个比率仍在剧烈增长。尽管产生的所有这些信息都是有意义的,并且在处理时可能是有用的,但它却被忽视了。
What Comes Under Big Data?
大数据涉及由不同设备和应用程序生成的数据。以下是属于大数据保护范围的一些领域。
-
Black Box Data − 它是直升飞机、飞机和喷气式飞机等的组件。它捕捉飞行员的声音、麦克风和耳机的录音以及飞机的性能信息。
-
Social Media Data − Facebook 和 Twitter 等社交媒体包含全球数百万用户发布的信息和观点。
-
Stock Exchange Data − 股票交易所数据包含客户针对不同公司的股票做出的“买入”和“卖出”决策信息。
-
Power Grid Data − 电网数据包含特定节点相对于基站消耗的信息。
-
Transport Data − 交通数据包括车辆的型号、容量、距离和可用性。
-
Search Engine Data − 搜索引擎从不同数据库检索大量数据。
因此,大数据包含海量、高速和可扩展性多种数据。其中数据有三种类型。
-
Structured data − 关系数据。
-
Semi Structured data − XML 数据。
-
Unstructured data − Word、PDF、文本、媒体日志。
Benefits of Big Data
-
营销机构会使用 Facebook 等社交网络中保存的信息,了解其活动、促销和其他广告媒体的响应。
-
产品公司和零售组织会使用社交媒体中的信息,例如消费者的偏好和产品认知,来规划其生产。
-
医院会使用患者既往病史相关数据来提供更好、更快的服务。
Big Data Technologies
大数据技术对于提供更准确的分析非常重要,这可能导致更具体决策,从而提高运营效率、降低成本,并降低业务风险。
为了利用大数据的强大优势,你需要一个基础结构,该基础结构可以实时管理和处理海量的结构化和非结构化数据,并且可以保护数据隐私和安全性。
市场上有许多来自不同供应商(包括 Amazon、IBM、Microsoft 等)的各种技术来处理大数据。在研究用于处理大数据的技术时,我们会研究以下两类技术 −
Operational vs. Analytical Systems
Operational |
Analytical |
|
Latency |
1 毫秒 - 100 毫秒 |
1 分钟 - 100 分钟 |
Concurrency |
1000 - 100,000 |
1 - 10 |
Access Pattern |
Writes and Reads |
Reads |
Queries |
Selective |
Unselective |
Data Scope |
Operational |
Retrospective |
End User |
Customer |
Data Scientist |
Technology |
NoSQL |
MapReduce, MPP Database |