Dwh 简明教程
Data Warehousing - Terminologies
在本章中,我们将讨论数据仓库中最常用的几个术语。
Metadata
元数据简单地定义为关于数据的数据。用于表示其他数据的数据称为元数据。例如,书籍的索引是书中内容的元数据。换句话说,我们可以说元数据是将我们引至详细数据的大致数据。
在数据仓库方面,我们可以将元数据定义如下 −
-
元数据是数据仓库的路线图。
-
数据仓库中的元数据定义了仓库对象。
-
元数据充当目录。此目录帮助决策支持系统定位数据仓库的内容。
Metadata Repository
元数据存储库是数据仓库系统的一个组成部分。它包含以下元数据 −
-
Business metadata − 它包含数据所有权信息、业务定义和更改策略。
-
Operational metadata − 它包括数据的时效性与数据谱系。数据的时效性指数据是活动、已存档还是已被清除。数据谱系是指数据迁移和在其上应用的转换的历史。
-
Data for mapping from operational environment to data warehouse − 它元数据包括源数据库及其内容、数据提取、数据分区、清理、转换规则、数据刷新和清除规则。
-
The algorithms for summarization − 它包括维度算法、粒度数据、聚合、汇总等。
Data Cube
数据立方体帮助我们在多维度表示数据。它通过维度和事实来定义。维度是企业按其保存记录的实体。
Illustration of Data Cube
假设一家公司希望借助销售数据仓库来跟踪销售记录,并按时间、项目、分支和位置。这些维度允许跟踪月度销售情况以及项目售出的分支。每个维度都关联一张表。这张表称为维度表。例如,“项目”维度表可能具有诸如项目名称、项目类型、项目品牌之类的属性。
下表表示公司关于时间、项目和位置维度的销售数据的二维视图。
但此处的此二维表中,我们只有时间和项目才具有记录。新德里的销售情况根据销售项目类型按时间和项目维度显示。如果我们希望根据更多维度(比如位置维度)查看销售数据,那么三维视图将很有用。下方的表格显示了关于时间、项目和位置的三维销售数据视图 −
以上三维表格可以如以下图形所示表示为三维数据立方体 −