Data Mining 简明教程

Data Mining - Evaluation

Data Warehouse

data warehouse 对以下特性进行了展示,以支持管理层的决策制定过程 −

  1. Subject Oriented − 数据仓库面向主题,因为它为我们提供某个主题的信息,而不是组织的持续运营。这些主题可以是产品、客户、供应商、销售、收入等。数据仓库不关注正在进行的业务操作,而是侧重于对数据进行建模和分析以做出决策。

  2. Integrated − 数据仓库通过集成来自异构源(如关系数据库、平面文件等)的数据来构建。这种集成增强了对数据的有效分析。

  3. Time Variant − 数据仓库中收集的数据已识别为特定时间段。数据仓库中的数据提供历史观点的信息。

  4. Non-volatile − 非易失意味着在新数据添加到原有数据时,不会删除前一个数据。数据仓库与操作数据库分开保存,因此操作数据库中的频繁更改不会反映在数据仓库中。

Data Warehousing

Data warehousing 是构建和使用数据仓库的过程。数据仓库是通过整合来自多个异构来源的数据而构建的。它支持分析报告、结构化和/或即席查询和决策制定。

数据仓储涉及数据清理、数据集成和数据合并。为了集成异构数据库,我们采用了以下两种方法:

  1. Query Driven Approach

  2. Update Driven Approach

Query-Driven Approach

这是集成异构数据库的传统方法。此方法用于在多个异构数据库之上构建包装和集成器。这些集成器也称为“中介器”。

Process of Query Driven Approach

  1. 当向客户端发出查询时,元数据词典将查询转换为针对每个独立的异构站点的适当查询。

  2. 现在,将映射这些查询并将其发送到本地查询处理器。

  3. 来自异构站点的结果被集成到全局答案集中。

Disadvantages

此方法有以下缺点:

  1. 查询驱动方法需要复杂得集成和筛选过程。

  2. 对于频繁的查询,这非常低效且非常昂贵。

  3. 对于需要聚合的查询,此方法比较昂贵。

Update-Driven Approach

当今的数据仓库系统遵循更新驱动方法,而不是前面讨论的传统方法。在更新驱动方法中,来自多个异构源的信息已预先集成并存储在仓库中。此信息可用于直接查询和分析。

Advantages

此方法有以下优点:

  1. 这种方法提供高性能。

  2. 可以在语义数据存储中提前复制、处理、集成、注释、汇总和重组数据。

查询处理不需要与本地源的处理接口。

From Data Warehousing (OLAP) to Data Mining (OLAM)

在线分析挖掘与在线分析处理通过对多维数据库进行数据挖掘和知识挖掘进行集成。以下是展示了 OLAP 和 OLAM 集成的示意图 −

dm olap to olam

Importance of OLAM

OLAM 出于以下原因很重要 −

  1. High quality of data in data warehouses − 数据挖掘工具需要对已整合、一致且已清理的数据进行处理。这些步骤在数据预处理过程中成本非常高。此类预处理建立的数据仓库也是 OLAP 和数据挖掘的高质量数据的有价值的来源。

  2. Available information processing infrastructure surrounding data warehouses − 信息处理基础设施是指对多个异构数据库、网络访问和服务设施、报告和 OLAP 分析工具的访问、集成、合并和转换。

  3. OLAP−based exploratory data analysis − 有效的数据挖掘需要探索性数据分析。OLAM 为各种数据子集和不同抽象级别的的数据挖掘提供便利。

  4. Online selection of data mining functions − 将 OLAP 与多个数据挖掘函数和在线分析挖掘相集成为用户提供了选择所需数据挖掘函数和动态交换数据挖掘任务的灵活性。