Data Mining 简明教程

Data Mining - Terminologies

Data Mining

数据挖掘被定义为从大量数据中提取信息。换句话说,我们可以说数据挖掘是从数据中挖掘知识。此信息可用于以下任意应用程序 −

  1. Market Analysis

  2. Fraud Detection

  3. Customer Retention

  4. Production Control

  5. Science Exploration

Data Mining Engine

数据挖掘引擎对数据挖掘系统至关重要。它由执行以下函数的一组功能模块组成 −

  1. Characterization

  2. Association and Correlation Analysis

  3. Classification

  4. Prediction

  5. Cluster analysis

  6. Outlier analysis

  7. Evolution analysis

Knowledge Base

这是领域知识。这种知识用于指导搜索或评估所得模式的趣味性。

Knowledge Discovery

有些人将数据挖掘与知识发现视为同义词,而另一些人则将数据挖掘视为知识发现过程中必不可少的一步。以下是知识发现过程中涉及的步骤 −

  1. Data Cleaning

  2. Data Integration

  3. Data Selection

  4. Data Transformation

  5. Data Mining

  6. Pattern Evaluation

  7. Knowledge Presentation

User interface

用户界面是数据挖掘系统的模块,用于帮助用户和数据挖掘系统之间的通信。用户界面允许以下功能 −

  1. 通过指定数据挖掘查询任务与系统交互。

  2. 提供有助于集中搜索的信息。

  3. 基于中间数据挖掘结果进行挖掘。

  4. 浏览数据库和数据仓库模式或数据结构。

  5. Evaluate mined patterns.

  6. 以不同形式可视化模式。

Data Integration

数据集成是一种将来自多个异构数据源的数据合并到一个连贯的数据存储中的数据预处理技术。数据集成可能涉及不一致的数据,因此需要数据清理。

Data Cleaning

数据清理是一种用于清除杂乱数据并更正数据中不一致性的技术。数据清理涉及更正错误数据的转换。数据清理是在为数据仓库准备数据时作为数据预处理步骤执行的。

Data Selection

数据选择是从数据库中检索与分析任务相关的数据的过程。有时,在数据选择过程之前会执行数据转换和合并。

Clusters

聚类是指一组相似的对象。聚类分析是指形成一群彼此非常相似但与其他群集中的对象有很大差异的对象。

Data Transformation

在此步骤中通过执行摘要或汇总操作,将数据转换成适合挖掘的形式。