Big Data Analytics 简明教程
Big Data Analytics - Overview
What is Big Data Analytics?
Gartner 将大数据定义为:“大数据是需要高性价比、创新型信息处理形式的信息,这些形式可增强洞察力、决策和流程自动化。”
大数据是传统计算方法无法处理和管理的大量数据集集合。这是一个广泛的术语,指的是当今数字世界中企业和政府生成的大量复杂数据集。它通常以 PB 或 TB 为单位衡量,其源自三个关键来源:事务数据、机器数据和社交数据。
大数据包括用于存储、访问、分析和可视化数据的数据、框架、工具和方法。像社交网络和强大小工具这样的先进通信渠道已经创造了创建数据和数据转换的不同方法,并向行业参与者提出了挑战,即他们必须找到处理数据的新方法。从不同来源检索到的大量非结构化原始数据转换为对组织有用的数据产品的过程构成了大数据分析的核心。
Steps of Big Data Analytics
大数据分析是帮助发现大型复杂数据集的潜力的强大工具。为了更好地理解,让我们将其分解为关键步骤 −
Data Collection
这是初始步骤,其中数据是从社交媒体、传感器、在线渠道、商业交易、网站日志等不同来源收集的。收集的数据可能是结构化的(预定义的组织,如数据库)、半结构化的(如日志文件)或非结构化的(文本文档、照片和视频)。
Data Cleaning (Data Pre-processing)
下一步是通过消除错误并使其适合分析来处理收集的数据。收集的原始数据通常包含错误、缺失值、不一致性和噪声数据。数据清理需要识别和纠正错误,以确保数据准确一致。预处理操作还可能涉及数据转换、规范化和特征提取,以准备数据进行进一步分析。
总体而言,数据清理和预处理需要替换缺失数据、更正不准确数据,并删除重复数据。这就像筛选一个宝库,将岩石和碎屑分离,只留下有价值的宝石。
Data Analysis
这是大数据分析的关键阶段。使用不同的技术和算法来分析数据并得出有用的见解。这可以包括描述性分析(总结数据以更好地了解其特征)、诊断分析(识别模式和关系)、预测分析(预测未来趋势或结果)和规范性分析(基于分析提出建议或决策)。
Data Visualization
这是使用图表、图形和交互式仪表板以可视化形式呈现数据的一个步骤。因此,数据可视化技术用于使用图表、图形、仪表板和其他图形格式直观地描绘数据,以使数据分析见解更清晰,更可操作。
Interpretation and Decision Making
一旦数据分析和可视化完成并获得了见解,利益相关者就会分析这些发现以做出明智的决策。此决策包括优化企业运营、增加消费者体验、创建新产品或服务以及指导战略规划。
Types of Big-Data
大数据通常分为三种不同的类型。它们如下所示 −
-
Structured Data
-
Semi-Structured Data
-
Unstructured Data
让我们详细讨论一下获取类型。
Structured Data
结构化数据具有专门的数据模型、明确定义的结构和一致的顺序,并且旨在以人类或计算机可以轻松访问和使用的方式进行设计。结构化数据通常以明确定义的表格形式存储,即以行和列的形式存储。示例:MS Excel、数据库管理系统 (DBMS)
Types of Big Data Analytics
一些常见的大数据分析类型有:
Descriptive Analytics
描述性分析给出了类似 “What is happening in my business?" 的结果,如果数据集与业务相关。总体而言,这将总结之前的事实并帮助创建报告,例如公司的收入、利润和销售数据。它还有助于统计社交媒体指标。它可以执行全面、准确的实时数据和有效的可视化。
Diagnostic Analytics
诊断分析从数据中确定根本原因。它回答诸如 “Why is it happening?” 这样的问题。一些常见的例子是向下钻取、数据挖掘和数据恢复。组织使用诊断分析,因为它们提供了对特定问题的深入见解。总的来说,它可以深入研究根本原因,并能够隔离所有混杂信息。
For example - 来自在线商店的报告称销售额有所下降,尽管人们仍在向他们的购物车中添加商品。造成这种情况的原因可能是表单加载不当、运费过高,或者提供的付款方式不足。你可以使用诊断数据来找出原因。
Tools and Technologies of Big Data Analytics
一些常用的 大数据分析工具有:
Talend
一种用于数据集成和管理的工具。Talend 的解决方案包包括数据集成、数据质量、主数据管理和数据治理的完整功能。Talend 与大数据管理工具(如 Hadoop、Spark 和 NoSQL 数据库)集成,使组织能够高效地处理和分析大量数据。它包括用于与大数据技术交互的连接器和组件,使用户能够创建数据管道来摄入、处理和分析大量数据。