Data Mining 简明教程

Data Mining - Classification & Prediction

有两种形式的数据分析可以用于提取描述重要类别的模型或预测未来的数据趋势。这两种形式如下 −

  1. Classification

  2. Prediction

分类模型预测分类类别标签;预测模型预测连续的值函数。例如,我们可以构建一个分类模型,将银行贷款申请归类为安全或有风险,或构建一个预测模型,根据潜在客户的收入和职业来预测他们在计算机设备上的支出(以美元为单位)。

What is classification?

以下是数据分析任务是分类的案例示例 −

  1. 银行信贷员希望分析数据以了解哪些客户(贷款申请人)有风险或哪些是安全的。

  2. 一家公司的营销经理需要分析具有给定配置文件的客户,他们将购买新计算机。

在上述两个示例中,构造了一个模型或分类器来预测分类标签。对于贷款申请数据,这些标签是“有风险”或“安全”,对于市场数据,这些标签是“是”或“否”。

What is prediction?

以下是数据分析任务是预测的案例示例 −

假设营销经理需要预测给定客户在他公司的一次促销中会花费多少钱。在这个示例中,我们很乐意预测一个数字值。因此,数据分析任务是数字预测的示例。在这种情况下,将构造一个模型或预测器来预测连续值函数或有序值。

Note − 回归分析是一种最常用于数字预测的统计方法。

How Does Classification Works?

借助我们上面讨论的银行贷款申请,让我们了解分类的工作原理。数据分类过程包括两个步骤 −

  1. 构建分类器或模型

  2. Using Classifier for Classification

Building the Classifier or Model

  1. 此步骤为学习步骤或学习阶段。

  2. 在此步骤中,分类算法构建分类器。

  3. 分类器是通过由数据库元组及其关联类别标签组成的训练集构建的。

  4. 构成训练集的每个元组称为类别或分类。这些元组还可以称为样本、对象或数据点。

dm build classifier

Using Classifier for Classification

在此步骤中,分类器用于分类。这里使用测试数据来评估分类规则的准确度。如果准确度被认为可以接受,则可以将分类规则应用于新数据元组。

dm using classifier

Classification and Prediction Issues

主要问题是为分类和预测准备数据。准备数据包含以下活动:

  1. Data Cleaning − 数据清理涉及移除噪声和处理缺失值。通过应用平滑技术来移除噪声,并通过用该属性最常出现的值替换缺失值来解决缺失值问题。

  2. Relevance Analysis − 数据库可能还具有无关属性。相关性分析用于了解给定的两个属性是否相关。

  3. Data Transformation and reduction − 数据可以通过以下任何一种方法转换。 Normalization − 使用归一化转换数据。归一化涉及缩放给定属性的所有值,以便使它们落在较小的指定范围内。在学习步骤中使用神经网络或涉及测量的其他方法时,使用归一化。 Generalization − 还可以通过将其概括为更高的概念来转换数据。为了这个目的,我们可以使用概念层次结构。

Note − 还可以通过其他一些方法来减少数据,例如小波变换、分箱、直方图分析和聚类。

Comparison of Classification and Prediction Methods

以下是比较分类和预测方法的标准:

  1. Accuracy − 分类器的准确度指的是分类器的能力。它可以正确预测类标签,并且预测器的准确度指的是给定预测器猜测新数据的预测属性值的能力。

  2. Speed − 这是指生成和使用分类器或预测器的计算成本。

  3. Robustness − 这是指分类器或预测器从给定的噪声数据中进行正确预测的能力。

  4. Scalability − 可扩展性指的是构造分类器或预测器的效率;提供了大量数据。

  5. Interpretability − 这是指分类器或预测器了解的程度。