Data Mining 简明教程
Data Mining - Tasks
数据挖掘涉及可挖掘的模式类型。根据要挖掘的数据类型,数据挖掘涉及两个类别的功能 −
-
Descriptive
-
Classification and Prediction
Descriptive Function
描述功能涉及数据库中数据的常规属性。以下是描述功能列表 −
-
Class/Concept Description
-
Mining of Frequent Patterns
-
Mining of Associations
-
Mining of Correlations
-
Mining of Clusters
Class/Concept Description
类别/概念是指要与类别或概念关联的数据。例如,在一家公司中,销售物品的类别包括计算机和打印机,客户概念包括大额消费者和预算消费者。此类类别或概念的描述称为类别/概念描述。可以通过以下两种方式获取这些描述:
-
Data Characterization − 指总结类研究的数据。此类研究称为目标类。
-
Data Discrimination − 指将类与一些预定义组或类进行映射或分类。
Mining of Frequent Patterns
频繁模式是指在交易数据中经常发生的模式。以下是频繁模式的类型列表 −
-
Frequent Item Set − 指经常一起出现的商品组,例如牛奶和面包。
-
Frequent Subsequence − 经常发生的模式序列,例如先购买相机,然后购买存储卡。
-
Frequent Sub Structure − 子结构是指不同的结构形式,例如图、树或格,可以与项目集或子序列结合。
Mining of Association
关联用于零售销售中,以识别经常一起购买的模式。此过程是指揭示数据之间的关系和确定关联规则的过程。
例如,零售商生成了一条关联规则,表明 70% 的时间牛奶与面包一起出售,而只有 30% 的时间饼干与面包一起出售。
Mining of Clusters
集群是指一组类似种类的对象。 Cluster analysis 指的是形成彼此非常相似但与其他集群中的对象有很大区别的对象组。
Classification and Prediction
Classification 是寻找描述数据类或概念的模型的过程。目的是能够使用此模型来预测类别标签未知的对象的类别。此派生模型基于对训练数据集的分析。派生模型可以以下形式呈现 -
-
Classification (IF-THEN) Rules
-
Decision Trees
-
Mathematical Formulae
-
Neural Networks
参与这些过程的函数列表如下:
-
Classification - 预测类标签未知的对象的类别。其目的是找到一个描述和区分数据类别或概念的派生模型。派生模型基于培训数据集的分析,即类标签已知的对象。
-
Prediction - 用于预测缺失或不可用的数字数据值,而不是类标签。回归分析通常用于预测。预测还可以用于根据可用数据识别分布趋势。
-
Outlier Analysis - 异常值可以定义为不符合可用数据的总体行为或模型的数据对象。
-
Evolution Analysis - 进化分析是指描述和建模行为随着时间变化的对象的规律性或趋势。
Data Mining Task Primitives
-
我们可以以 data mining query 的形式指定数据挖掘任务。
-
此查询是输入给系统的。
-
数据挖掘查询是根据数据挖掘任务基元定义的。
Note − 这些基础函数允许我们以交互方式与数据挖掘系统进行通信。以下为数据挖掘任务基础函数列表 -
-
要挖掘的相关数据集合。
-
要挖掘的知识类型。
-
发现过程中要使用的背景知识。
-
模式评估的有趣性度量和阈值。
-
表示用于显示发现的模式。
Kind of knowledge to be mined
它指要执行的功能类型。这些功能为 -
-
Characterization
-
Discrimination
-
Association and Correlation Analysis
-
Classification
-
Prediction
-
Clustering
-
Outlier Analysis
-
Evolution Analysis