Data Science 简明教程

Data Science - What is Data?

What is Data in Data Science?

数据是数据科学的基础。数据是对指定字符的系统记录、数量或符号,计算机对此执行操作,这些数据可以存储和传输。它是用于特定目的的数据汇编,例如调查或分析。当数据被结构化时,可以将该数据称为信息。数据源(原始数据、次要数据)也是需要考虑的重要因素。

数据有许多形状和形式,但通常可以认为是某种随机实验的结果——一个无法预先确定结果,但其工作原理仍然受分析约束的实验。来自随机实验的数据通常存储在表格或电子表格中。用来表示变量的统计惯例通常称为特征或列,而将单个项目(或单位)称为行。

Types of Data

主要有两类数据,分别是:

Qualitative Data

定性数据由无法计算、量化或仅用数字表示的信息组成。它从文本、音频和图片中收集,并使用数据可视化工具进行分布,包括词云、概念图、图形数据库、时间线和信息图表。

定性数据分析的目标是回答有关个人活动和动机的问题。收集和分析此类数据可能需要花费很多时间。处理定性数据的研究员或分析师被称为定性研究员或分析师。

定性数据可以为任何部门、用户群体或产品提供重要统计信息。

Types of Qualitative Data

主要有两类定性数据,分别是:

@[s0}

在统计中,名义数据(也称为名义标度)用于指定变量,而不提供数值。它是基本测量标度的最基本类型。与序数数据相反,名义数据无法排序或量化。

例如,一个人的姓名、头发颜色、国籍等。让我们假设一位名叫 Aby 的女孩头发是棕色的,她来自美国。

名义数据既可以是定性的,也可以是定量的。然而,定量标签(例如识别号)没有任何数值或链接与之关联。相反,可以以名义形式表达多个定性数据类别。这些可能包括单词、字母和符号。个人姓名、性别和国籍是最流行的名义数据实例。

@[s1}

可以使用分组方法分析名义数据。变量可以按组排序,并且可以确定每个类别的频率或百分比。此外还可以以图形方式显示数据,例如使用饼图。

analyze nominal data

尽管名义数据不能使用数学运算符处理,但仍可以使用统计技术对其进行研究。假设检验是评估和分析数据的其中一种方法。

使用名义数据,可以使用卡方检验等非参数检验来检验假设。卡方检验的目的是评估给定值的预测频率和实际频率之间是否存在统计上显着的差异。

@[s2}

序数数据是统计数据中的一种数据类型,其中值按自然顺序排列。序数数据最重要的一点是,您无法区分数据值之间的差异。大多数情况下,数据类别的宽度与底层属性的增量不匹配。

在某些情况下,可以通过对数据的值进行分组来找到间隔数据或比率数据的特征。例如,收入范围是序数数据,而实际收入是比率数据。

序数数据不能像间隔或比率数据一样使用数学运算符进行更改。因此,中位数是找出序数数据集中间位置的唯一方法。

此数据类型广泛存在于金融和经济领域。考虑一下一项研究各个国家 GDP 水平的经济研究。如果该报告根据各个国家的 GDP 对其进行评级,则排名就是序数统计数据。

@[s3}

使用可视化工具评估有序数据是最简单的方法。例如,该数据可以显示为一个表格,其中每一行代表一个独立的类别。此外,它们可以使用不同的图表进行图形化表示。条形图是用来显示此类数据最流行的图形样式。

analyzing ordinal data

有序数据也可以使用假设检验等复杂的统计分析方法进行研究。需要注意的是,t 检验和 ANOVA 等参数化过程不能用于这些数据集。只有非参数检验(如曼惠特尼 U 检验或威尔科克森配对检验)可以用来评估关于数据的空假设。

Qualitative Data Collection Methods

以下是一些收集定性数据的方法和收集方法——

  1. Data Records - 利用作为数据源的现有数据是进行定性研究的最佳技术。与参观图书馆类似,您可以检查书籍和其他参考材料以获取可用于研究的数据。

  2. Interviews - 个人访谈是获得定性研究演绎数据最常见的方法之一。该访谈可能是非正式的,没有既定的计划。它通常像一场对话。访谈者或研究人员直接从受访者那里获取信息。

  3. Focus Groups - 焦点小组由 6 到 10 人组成,他们互相交谈。主持人负责留意谈话并根据焦点问题对其进行引导。

  4. Case Studies - 案例研究是对个体或群体的深入分析,重点关注发展特征与环境之间的关系。

  5. Observation - 这是研究人员观察对象并记下抄写笔记以找出未经提示的先天反应和反应的技术。

Quantitative Data

定量数据由数值组成,具有数值特征,并且可以对这种类型的数据执行数学运算,例如加法。定量数据由于其定量特性而具有数学可验证性和可评估性。

它们数学导出的简单性使得管理不同参数的测量成为可能。通常,它是通过授予人群一部分的问卷调查、民意调查或调查来收集的,用于统计分析。研究人员能够将收集到的研究结果应用于整个人群。

Types of Quantitative Data

定量数据主要有两种类型,它们是——

Discrete Data

这些是只能采用特定值的数据,而不是范围。例如,有关人群血型或性别的信息被视为离散数据。

离散定量数据的示例可能是您网站的访问者数量;一天可能有 150 次访问,但不可能有 150.6 次访问。通常,饼状图、条形图和饼图用于表示离散数据。

Characteristics of Discrete Data

由于总结和计算离散数据很简单,因此它通常用于基本的统计分析。让我们检查一下离散数据的一些其他基本特征——

  1. 离散数据由离散变量组成,这些变量是有限的、可测量的、可计数的且不能为负(5、10、15 等)。

  2. 条形图、折线图和饼图等简单的统计方法使显示和解释离散数据变得很容易。

  3. 数据也可以是分类的,这意味着它具有固定数量的数据值,例如人的性别。

  4. 随时间和空间变化的数据以随机方式分布。离散分布使得对离散值的研究更加容易。

Continuous Data

这些数据可能在一定范围内取值,包括最大值和最小值。最大值和最小值之间的差称为数据范围。例如,你学校学生的身高和体重。这被认为是连续数据。连续数据的表格表示称为频数分布。这些可以利用直方图直观地描述。

Characteristics of continuous data

另一方面,连续数据可以是数字,或者随时间和日期变化。由于可能的值是无限的,所以此数据类型使用高级的统计分析方法。连续数据的以下重要特征 −

  1. 连续数据随时间变化,在不同的时间点可以具有不同的值。

  2. 连续数据由可能不是整数的随机变量构成。

  3. 使用诸如折线图、偏度等数据分析工具来度量连续数据。

  4. 经常使用的一种连续数据分析类型是回归分析。

Quantitative Data Collection Methods

下面是一些用于收集定量数据的方法和采集方法 −

  1. Surveys and Questionnaires − 这些研究类型适用于获取来自用户和客户的详细信息反馈,尤其是关于人们对产品、服务或体验的感受。

  2. Open-source Datasets − 可以在线找到大量公共数据集并免费进行分析。研究人员有时会查看已收集的数据,并尝试以适合他们自己的研究项目的方式了解其含义。

  3. Experiments − 一种常见的方法是实验,它通常有一个对照组和一个实验组。实验的设置使之可控,并且可以根据需要改变条件。

  4. Sampling − 当有大量数据点时,可能无法对每个人或数据点进行调查。在这种情况下,定量研究在抽样的帮助下进行。抽样是从代表整体的数据中选择一个样本的过程。两种抽样类型是随机抽样(也称为概率抽样)和非随机抽样。

Types of Data Collection

根据来源,数据收集可以分为两类 −

  1. Primary Data − 这些数据是由调查人员首次获取,用于特定目的。一级数据是“纯净”的,因为它们未经过任何统计处理,并且真实可靠。一级数据包括印度人口普查。

  2. Secondary Data − 这些数据最初是由某个实体收集的。这表明此类数据已被研究人员或调查人员收集,并且以已发布或未发布的形式提供。这些数据是不纯的,因为可能之前已对它们执行过统计计算。例如,印度政府或财政部的网站或其他档案、书籍、期刊等处的信息。

Big Data

大数据被定义为具有更大数据量的数据,需要克服后勤方面的挑战来处理它们。大数据指的是更大、更复杂的数据集合,特别是来自新型数据源的数据。一些数据集非常庞大,以至于传统的的数据处理软件无法处理它们。然而,这些海量数据可以用来解决以前无法解决的业务难题。

数据科学是关于如何分析巨量数据并从中获取信息的研究。你可以将大数据和数据科学比作原油和炼油厂。数据科学和大数据源于统计学和传统的数据管理方式,但现在被视为独立的领域。

人们常常使用三个 V 来描述大数据的特性 −

  1. Volume −有多少信息?

  2. Variety −不同类型的数据有何不同?

  3. Velocity −新信息产生的速度有多快?

How do we use Data in Data Science?

每条数据都必须经过预处理。这是一系列将原始数据转换为更易理解且有价值的格式以供进一步处理的基本流程。常见流程为−

  1. 收集和存储数据集

  2. Data Cleaning

  3. Data Integration

  4. Data Transformation

我们将在接下来的章节中详细讨论这些流程。