Data Mining 简明教程
Data Mining - Classification & Prediction
有两种形式的数据分析可以用于提取描述重要类别的模型或预测未来的数据趋势。这两种形式如下 −
-
Classification
-
Prediction
分类模型预测分类类别标签;预测模型预测连续的值函数。例如,我们可以构建一个分类模型,将银行贷款申请归类为安全或有风险,或构建一个预测模型,根据潜在客户的收入和职业来预测他们在计算机设备上的支出(以美元为单位)。
What is classification?
以下是数据分析任务是分类的案例示例 −
-
银行信贷员希望分析数据以了解哪些客户(贷款申请人)有风险或哪些是安全的。
-
一家公司的营销经理需要分析具有给定配置文件的客户,他们将购买新计算机。
在上述两个示例中,构造了一个模型或分类器来预测分类标签。对于贷款申请数据,这些标签是“有风险”或“安全”,对于市场数据,这些标签是“是”或“否”。
What is prediction?
以下是数据分析任务是预测的案例示例 −
假设营销经理需要预测给定客户在他公司的一次促销中会花费多少钱。在这个示例中,我们很乐意预测一个数字值。因此,数据分析任务是数字预测的示例。在这种情况下,将构造一个模型或预测器来预测连续值函数或有序值。
Note − 回归分析是一种最常用于数字预测的统计方法。
How Does Classification Works?
借助我们上面讨论的银行贷款申请,让我们了解分类的工作原理。数据分类过程包括两个步骤 −
-
构建分类器或模型
-
Using Classifier for Classification
Classification and Prediction Issues
主要问题是为分类和预测准备数据。准备数据包含以下活动:
-
Data Cleaning − 数据清理涉及移除噪声和处理缺失值。通过应用平滑技术来移除噪声,并通过用该属性最常出现的值替换缺失值来解决缺失值问题。
-
Relevance Analysis − 数据库可能还具有无关属性。相关性分析用于了解给定的两个属性是否相关。
-
Data Transformation and reduction − 数据可以通过以下任何一种方法转换。 Normalization − 使用归一化转换数据。归一化涉及缩放给定属性的所有值,以便使它们落在较小的指定范围内。在学习步骤中使用神经网络或涉及测量的其他方法时,使用归一化。 Generalization − 还可以通过将其概括为更高的概念来转换数据。为了这个目的,我们可以使用概念层次结构。
Note − 还可以通过其他一些方法来减少数据,例如小波变换、分箱、直方图分析和聚类。