Data Mining 简明教程

Data Mining - Tasks

数据挖掘涉及可挖掘的模式类型。根据要挖掘的数据类型,数据挖掘涉及两个类别的功能 −

  1. Descriptive

  2. Classification and Prediction

Descriptive Function

描述功能涉及数据库中数据的常规属性。以下是描述功能列表 −

  1. Class/Concept Description

  2. Mining of Frequent Patterns

  3. Mining of Associations

  4. Mining of Correlations

  5. Mining of Clusters

Class/Concept Description

类别/概念是指要与类别或概念关联的数据。例如,在一家公司中,销售物品的类别包括计算机和打印机,客户概念包括大额消费者和预算消费者。此类类别或概念的描述称为类别/概念描述。可以通过以下两种方式获取这些描述:

  1. Data Characterization − 指总结类研究的数据。此类研究称为目标类。

  2. Data Discrimination − 指将类与一些预定义组或类进行映射或分类。

Mining of Frequent Patterns

频繁模式是指在交易数据中经常发生的模式。以下是频繁模式的类型列表 −

  1. Frequent Item Set − 指经常一起出现的商品组,例如牛奶和面包。

  2. Frequent Subsequence − 经常发生的模式序列,例如先购买相机,然后购买存储卡。

  3. Frequent Sub Structure − 子结构是指不同的结构形式,例如图、树或格,可以与项目集或子序列结合。

Mining of Association

关联用于零售销售中,以识别经常一起购买的模式。此过程是指揭示数据之间的关系和确定关联规则的过程。

例如,零售商生成了一条关联规则,表明 70% 的时间牛奶与面包一起出售,而只有 30% 的时间饼干与面包一起出售。

Mining of Correlations

它是一种附加分析,执行此分析是为了揭示关联属性值对或两个项目集之间的有趣统计关联,以分析它们是否对彼此有正面、负面或无影响。

Mining of Clusters

集群是指一组类似种类的对象。 Cluster analysis 指的是形成彼此非常相似但与其他集群中的对象有很大区别的对象组。

Classification and Prediction

Classification 是寻找描述数据类或概念的模型的过程。目的是能够使用此模型来预测类别标签未知的对象的类别。此派生模型基于对训练数据集的分析。派生模型可以以下形式呈现 -

  1. Classification (IF-THEN) Rules

  2. Decision Trees

  3. Mathematical Formulae

  4. Neural Networks

参与这些过程的函数列表如下:

  1. Classification - 预测类标签未知的对象的类别。其目的是找到一个描述和区分数据类别或概念的派生模型。派生模型基于培训数据集的分析,即类标签已知的对象。

  2. Prediction - 用于预测缺失或不可用的数字数据值,而不是类标签。回归分析通常用于预测。预测还可以用于根据可用数据识别分布趋势。

  3. Outlier Analysis - 异常值可以定义为不符合可用数据的总体行为或模型的数据对象。

  4. Evolution Analysis - 进化分析是指描述和建模行为随着时间变化的对象的规律性或趋势。

Data Mining Task Primitives

  1. 我们可以以 data mining query 的形式指定数据挖掘任务。

  2. 此查询是输入给系统的。

  3. 数据挖掘查询是根据数据挖掘任务基元定义的。

Note − 这些基础函数允许我们以交互方式与数据挖掘系统进行通信。以下为数据挖掘任务基础函数列表 -

  1. 要挖掘的相关数据集合。

  2. 要挖掘的知识类型。

  3. 发现过程中要使用的背景知识。

  4. 模式评估的有趣性度量和阈值。

  5. 表示用于显示发现的模式。

Set of task relevant data to be mined

这是用户感兴趣的数据库部分。此部分包括以下内容 -

  1. Database Attributes

  2. 感兴趣的数据仓库维度

Kind of knowledge to be mined

它指要执行的功能类型。这些功能为 -

  1. Characterization

  2. Discrimination

  3. Association and Correlation Analysis

  4. Classification

  5. Prediction

  6. Clustering

  7. Outlier Analysis

  8. Evolution Analysis

Background knowledge

背景知识允许在多个抽象层级挖掘数据。例如,概念层次是允许在多个抽象层级挖掘数据的背景知识之一。

Interestingness measures and thresholds for pattern evaluation

这用于评估通过知识发现过程发现的模式。针对不同种类的知识,有不同的有趣措施.

Representation for visualizing the discovered patterns

这涉及发现的模式将要显示的形式。这些表示形式可能包括以下内容。−

  1. Rules

  2. Tables

  3. Charts

  4. Graphs

  5. Decision Trees

  6. Cubes