Excel Data Analysis 简明教程
Data Analysis - Process
数据分析是一个收集、转换、清理和建模数据的过程,目的是发现所需信息。获得的结果被传达出来,提出结论并支持决策。有时使用数据可视化来描述数据,以便于发现数据中的有用模式。术语数据建模和数据分析具有相同含义。
数据分析流程包括以下具有迭代性质的阶段 −
-
Data Requirements Specification
-
Data Collection
-
Data Processing
-
Data Cleaning
-
Data Analysis
-
Communication
Data Requirements Specification
分析所需数据基于问题或实验。根据指导分析的人员的要求,确定作为分析输入所必需的数据(例如,人口)。可以指定和获取关于人群的特定变量(例如,年龄和收入)。数据可以是数值的或分类的。
Data Collection
数据收集是收集对确定为数据要求的目标变量的信息的过程。重点是确保准确和诚实地收集数据。数据收集确保收集的数据准确,以便相关的决策有效。数据收集既提供了衡量基准,也提供了改进目标。
数据可从不同来源收集,包括组织数据库到网页信息。这样获取的数据可能未经结构化且可能包含不相关的信息。因此,收集到的数据需要经过数据处理和数据清理。
Data Processing
收集的数据必须经过处理或整理以为分析做准备。这包括根据相关分析工具的要求对数据进行结构化。例如,数据可能需要放入一个电子表格或统计应用程序中的表格中的行和列中。一个数据模型可能需要被创建。
Data Cleaning
处理和整理的数据可能是残缺不全的,包含重复项或包含错误。数据清理是防止和纠正这些错误的过程。有几种数据清理方式,具体取决于数据的类型。例如,在清理财务数据时,可以将某些总量与可靠的公布数字或已定义的阈值进行比较。同样,定量数据方法可用于异常值检测,之后将在分析中将这些异常值排除在外。