Dwh 简明教程
Data Warehousing - Architecture
在本章中,我们将讨论用于数据仓库设计的数据仓库架构业务分析框架。
Business Analysis Framework
业务分析师从数据仓库中获取信息,以衡量绩效并做出关键调整,以便在市场中胜过其他业务持有人。拥有数据仓库可提供以下优势 −
-
由于数据仓库可以快速有效地收集信息,因此可以提高业务生产力。
-
数据仓库为我们提供了客户和物品的一致视图,因此可以帮助我们管理客户关系。
-
数据仓库还可以通过长期跟踪趋势和模式,以一致可靠的方式帮助降低成本。
要设计出一个有效率的数据仓库,我们需要了解和分析业务需求,并构建 business analysis framework 。每个人对数据仓库设计都有不同的看法。这些视图如下所示 −
-
The top-down view − 此视图允许选择数据仓库所需的相关信息。
-
The data source view − 此视图显示由操作系统捕获、存储和管理的信息。
-
The data warehouse view − 这一视图包含事实表和维度表。它表示存储在数据仓库中的信息。
-
The business query view − 这是从最终用户角度查看的数据。
Three-Tier Data Warehouse Architecture
一般来说,数据仓库采用三层架构。以下是数据仓库架构的三层。
-
Bottom Tier − 架构的最底层是数据仓库数据库服务器。它是关系数据库系统。我们使用后端工具和实用程序向底层馈送数据。这些后端工具和实用程序执行提取、清理、加载和刷新功能。
-
Middle Tier − 在中间层,我们有 OLAP 服务器,可以通过以下两种方式实现。通过关系 OLAP (ROLAP),这是一种扩展的关系数据库管理系统。ROLAP 将多维数据上的操作映射到标准关系操作。通过多维 OLAP (MOLAP) 模型,直接实现多维数据和操作。
-
Top-Tier − 这一层是前端客户端层。这一层包含查询工具和报告工具、分析工具和数据挖掘工具。
下图描绘了数据仓库的三层架构 −
Data Warehouse Models
从数据仓库架构的角度来看,我们有以下数据仓库模型 −
-
Virtual Warehouse
-
Data mart
-
Enterprise Warehouse
Data Mart
数据市包含组织范围内的数据子集。这一数据子集对特定组织群体有价值。
换句话说,我们可以声称数据市包含特定群体特有的数据。例如,营销数据市可能包含与项目、客户和销售相关的数据。数据市局限于主题。
关于数据市需要注意的要点 −
-
使用基于 Window 或 Unix/Linux 的服务器来实现数据市。它们在低成本服务器上实现。
-
实现数据市周期以短时间段(即以周而不是月或年为单位)衡量。
-
如果数据市未经全组织规划和设计,从长远来看其生命周期可能是复杂的。
-
数据市集的规模较小。
-
数据市集按部门定制。
-
数据市集的源是按部门结构组织的数据仓库。
-
Data mart are flexible.
Load Manager
这一组件执行提取和加载流程所需的运算。
加载管理器的尺寸和复杂度在从一个数据仓库到其他数据仓库的具体解决方案中会各有不同。
Extract Data from Source
数据是从操作数据库或外部信息的提供者中提取的。网关是用于提取数据的应用程序。它由底层的 DBMS 支持,允许客户端程序在服务器上生成要执行的 SQL。开放数据库连接 (ODBC)、Java 数据库连接 (JDBC) 是网关示例。
Warehouse Manager
仓库管理员负责仓库管理流程。它包含第三方系统软件、C 程序和 shell 脚本。
仓库管理器的尺寸和复杂度在具体解决方案中会各有不同。