Dwh 简明教程

Data Warehousing - Concepts

What is Data Warehousing?

数据仓库是构建和使用数据仓库的过程。数据仓库是通过集成来自多个异构源的数据构建的,这些源支持分析报告、结构化或即席查询以及决策。数据仓库涉及数据清理、数据集成和数据合并。

Using Data Warehouse Information

有有助于利用数据仓库中可用数据的决策支持技术。这些技术帮助高管快速有效地使用仓库。他们可以收集数据、分析数据并根据仓库中的信息做出决策。仓库中收集的信息可用于以下任何域中−

  1. Tuning Production Strategies −通过比较季度或年度销售额,产品的策略可以很好地调整,管理产品组合。

  2. Customer Analysis −客户分析是通过分析客户的购买偏好、购买时间、预算周期等来完成的。

  3. Operations Analysis − 数据仓库也有助于客户关系管理和环境纠正。这些信息还允许我们分析业务运营。

Integrating Heterogeneous Databases

为了集成异构数据库,我们有两种方法−

  1. Query-driven Approach

  2. Update-driven Approach

Query-Driven Approach

这是集成异构数据库的传统方法。此方法用于在多个异构数据库之上构建包装器和集成器。这些集成器也被称为调解器。

Process of Query-Driven Approach

  1. 当向客户端发出查询时,元数据词典将查询转换为适用于所涉及各个异构网站的适当形式。

  2. 现在,将映射这些查询并将其发送到本地查询处理器。

  3. 来自异构站点的结果被集成到全局答案集中。

Disadvantages

  1. 查询驱动方法需要复杂的集成和过滤流程。

  2. 这种方法非常低效。

  3. 对于频繁的查询来说,成本非常高。

  4. 对于需要聚合的查询,这种方法也非常昂贵。

Update-Driven Approach

这是传统方法的替代方法。当今的数据仓库系统遵循更新驱动方法,而不是前面讨论的传统方法。在更新驱动方法中,来自多个异构源的信息会预先集成并存储在仓库中。该信息可用于直接查询和分析。

Advantages

此方法有以下优点:

  1. 这种方法提供了高性能。

  2. 数据在语义数据存储中预先复制、处理、集成、注释、汇总和重组。

  3. 查询处理不需要一个在本地源处理数据的界面。

Functions of Data Warehouse Tools and Utilities

以下是数据仓库工具和实用程序的功能−

  1. Data Extraction − 涉及从多个异构源收集数据。

  2. Data Cleaning − 涉及查找和更正数据中的错误。

  3. Data Transformation − 涉及将数据从传统格式转换为仓库格式。

  4. Data Loading − 涉及分类、汇总、合并、检查完整性以及构建索引和分区。

  5. Refreshing − 涉及从数据源更新到仓库。

Note − 数据清理和数据转换是提高数据和数据挖掘结果质量的重要步骤。