Dwh 简明教程

Data Warehousing - Terminologies

在本章中,我们将讨论数据仓库中最常用的几个术语。

Metadata

元数据简单地定义为关于数据的数据。用于表示其他数据的数据称为元数据。例如,书籍的索引是书中内容的元数据。换句话说,我们可以说元数据是将我们引至详细数据的大致数据。

在数据仓库方面,我们可以将元数据定义如下 −

  1. 元数据是数据仓库的路线图。

  2. 数据仓库中的元数据定义了仓库对象。

  3. 元数据充当目录。此目录帮助决策支持系统定位数据仓库的内容。

Metadata Repository

元数据存储库是数据仓库系统的一个组成部分。它包含以下元数据 −

  1. Business metadata − 它包含数据所有权信息、业务定义和更改策略。

  2. Operational metadata − 它包括数据的时效性与数据谱系。数据的时效性指数据是活动、已存档还是已被清除。数据谱系是指数据迁移和在其上应用的转换的历史。

  3. Data for mapping from operational environment to data warehouse − 它元数据包括源数据库及其内容、数据提取、数据分区、清理、转换规则、数据刷新和清除规则。

  4. The algorithms for summarization − 它包括维度算法、粒度数据、聚合、汇总等。

Data Cube

数据立方体帮助我们在多维度表示数据。它通过维度和事实来定义。维度是企业按其保存记录的实体。

Illustration of Data Cube

假设一家公司希望借助销售数据仓库来跟踪销售记录,并按时间、项目、分支和位置。这些维度允许跟踪月度销售情况以及项目售出的分支。每个维度都关联一张表。这张表称为维度表。例如,“项目”维度表可能具有诸如项目名称、项目类型、项目品牌之类的属性。

下表表示公司关于时间、项目和位置维度的销售数据的二维视图。

data cube2d

但此处的此二维表中,我们只有时间和项目才具有记录。新德里的销售情况根据销售项目类型按时间和项目维度显示。如果我们希望根据更多维度(比如位置维度)查看销售数据,那么三维视图将很有用。下方的表格显示了关于时间、项目和位置的三维销售数据视图 −

data cube3d

以上三维表格可以如以下图形所示表示为三维数据立方体 −

data cube3d1

Data Mart

数据超市包含组织范围内对组织中特定人群有价值的数据子集。换句话说,数据超市仅包含特定于特定人群的数据。例如,市场数据超市可能仅包含与项目、客户和销售有关的数据。数据超市局限于主题。

Points to Remember About Data Marts

  1. 用于实施数据市集的是基于 Windows 或 Unix/Linux 的服务器。它们在低成本服务器上实现。

  2. 数据市集的实施周期以短周期为单位,即以周为单位,而不是以月或年为单位。

  3. 如果数据市集的规划和设计不是全组织范围的,那么从长远来看,数据市集的生命周期可能很复杂。

  4. 数据市集的规模较小。

  5. 数据市集按部门定制。

  6. 数据市集的源是按部门结构组织的数据仓库。

  7. Data marts are flexible.

下图显示了数据市集的图形表示形式。

data mart

Virtual Warehouse

对一个操作数据仓库的视图称为虚拟仓库。创建虚拟仓库很容易。创建虚拟仓库需要操作数据库服务器上有多余容量。