Dwh 简明教程

Data Warehousing - Metadata Concepts

What is Metadata?

元数据简单地被定义为关于数据的数据。用于表示其他数据的数据称为元数据。例如,一本的索引充当了书中内容的元数据。换言之,我们可以说元数据是将我们引导到详细数据的汇总数据。就数据仓库而言,我们可以将元数据定义如下。

  1. 元数据是通往数据仓库的路线图。

  2. 数据仓库中的元数据定义了仓库对象。

  3. 元数据充当目录。此目录帮助决策支持系统定位数据仓库的内容。

Note − 在数据仓库中,我们创建元数据,用于给定数据仓库的数据名称和定义。在此元数据中,我们还创建其他元数据,用于对提取的任何数据的时间戳记进行时间戳记和提取数据的源。

Categories of Metadata

元数据可以大致分为三类 −

  1. Business Metadata − 它具有数据所有权信息、业务定义和更改策略。

  2. Technical Metadata − 它包含数据库系统名称、表和列名称和大小、数据类型和允许的值。技术元数据还包含结构信息,例如主键和外键属性以及索引。

  3. Operational Metadata − 它包含数据的有效性和数据血统。数据的有效性是指数据是处于活动、归档还是已清除状态。数据血统是指迁移的数据的历史以及在其上应用的转换。

metadata categories

Role of Metadata

元数据在数据仓库中发挥着非常重要的作用。元数据在仓库中的作用与仓库数据的作用不同,但它扮演着重要的作用。下面解释了元数据的各种作用。

  1. 元数据充当目录。

  2. 此目录帮助决策支持系统查找数据仓库的内容。

  3. 元数据有助于在数据从操作环境转换为数据仓库环境时,实现数据映射决策支持系统。

  4. 元数据有助于在当前详细数据和高度汇总之间进行汇总。

  5. 元数据也有助于在轻度详细数据和高度汇总数据之间进行汇总。

  6. 元数据用于查询工具。

  7. 元数据用于提取和清理工具。

  8. 元数据用于报表工具。

  9. 元数据用于转换工具。

  10. 元数据在加载功能中起着重要作用。

下图显示了元数据的角色。

metadata role

Metadata Repository

元数据存储库是数据仓库系统的一个组成部分。它具有以下元数据:

  1. Definition of data warehouse − 它包含数据仓库结构的描述。该描述由架构、视图、层次结构、派生数据定义以及数据市场位置和内容定义。

  2. Business metadata − 它包含数据所有权信息、业务定义和更改策略。

  3. Operational Metadata − 它包含数据的有效性和数据血统。数据的有效性是指数据是处于活动、归档还是已清除状态。数据血统是指迁移的数据的历史以及在其上应用的转换。

  4. Data for mapping from operational environment to data warehouse − 它包括源数据库及其内容、数据提取、数据分区清理、转换规则、数据刷新和清除规则。

  5. Algorithms for summarization − 它包括度量算法、粒度数据、聚合、汇总等。

Challenges for Metadata Management

元数据的重要性不容忽视。元数据有助于提高报告的准确性、验证数据转换并确保计算准确性。元数据还强制终端用户遵守业务术语的定义。除了所有这些对元数据的应用,元数据也面临着挑战。以下讨论了部分挑战。

  1. 大型组织中的元数据分散在整个组织中。此元数据分布在电子表格、数据库和应用程序中。

  2. 元数据可以存在于文本文件或多媒体文件中。要将此数据用于信息管理解决方案,必须正确定义此数据。

  3. 没有业界公认的标准。数据管理解决方案供应商关注点很窄。

  4. 没有简单且公认的元数据传递方法。