Dwh 简明教程

Data Warehousing - OLAP

在线分析处理服务器 (OLAP) 基于多维数据模型。它允许管理人员和分析人员通过快速、一致和交互方式获取信息的深刻见解。本章介绍 OLAP 的类型、OLAP 的操作、OLAP 与统计数据库和 OLTP 之间的差异。

Types of OLAP Servers

我们有四种类型的 OLAP 服务器 −

  1. Relational OLAP (ROLAP)

  2. Multidimensional OLAP (MOLAP)

  3. Hybrid OLAP (HOLAP)

  4. Specialized SQL Servers

Relational OLAP

ROLAP 服务器放置在关系型后端服务器和客户端前端工具之间。ROLAP 使用关系型或扩展关系型 DBMS 来存储和管理仓库数据。

ROLAP 包括以下内容 -

  1. 汇总导航逻辑的实现。

  2. 针对每个 DBMS 后端的优化。

  3. Additional tools and services.

Multidimensional OLAP

MOLAP 使用基于数组的多维存储引擎来实现数据的多维视图。使用多维数据存储时,如果数据集稀疏,存储利用率可能会低。因此,许多 MOLAP 服务器使用两级数据存储表示来处理稠密和稀疏数据集。

Hybrid OLAP

混合 OLAP 是 ROLAP 和 MOLAP 的组合。它提供了 ROLAP 的较高可扩展性和 MOLAP 的更快计算。HOLAP 服务器允许存储详细信息的庞大数据量。汇总会单独存储在 MOLAP 存储中。

Specialized SQL Servers

专业 SQL 服务器在只读环境中为星型和雪花型架构上的 SQL 查询提供高级查询语言和查询处理支持。

OLAP Operations

由于 OLAP 服务器基于多维数据视图,因此我们将在多维数据中讨论 OLAP 操作。

以下是 OLAP 操作列表:

  1. Roll-up

  2. Drill-down

  3. Slice and dice

  4. Pivot (rotate)

Roll-up

汇总对数据立方体执行聚合,方式如下:

  1. 按维度的一个概念层次向上爬升

  2. By dimension reduction

下图展示了汇总如何工作。

rollup
  1. 汇总通过按维度 location 的概念层次向上爬升执行。

  2. 最初的概念层次是“街道 < 城市 < 省份 < 国家”。

  3. 在汇总时,数据从城市级别按位置层次升序聚合到国家级别。

  4. 数据按城市分组,而不是按国家分组。

  5. 执行汇总时,会从数据立方体中移除一个或多个维度。

Drill-down

向下钻取是汇总的反向操作。按以下任一方式执行:

  1. 按维度的一个概念层次向下钻取

  2. 引入一个新维度。

下图展示了向下钻取如何工作:

drill down
  1. 向下钻取通过按维度 time 的概念层次向下钻取执行。

  2. 最初的概念层次是“天 < 月 < 季度 < 年”。

  3. 在向下钻取时,时间维度从季度级别降至月级。

  4. 执行向下钻取时,会从数据立方体中添加一个或多个维度。

  5. 它将数据从较少的详细数据导航到非常详细的数据。

Slice

分片操作从给定的立方体中选择一个特定的维度,并提供一个新的子立方体。请考虑以下显示分片工作原理的图表。

slice
  1. 这里针对维度“时间”执行了分片,使用条件时间 =“Q1”。

  2. 它将通过选择一个或多个维度来形成一个新的子立方体。

Dice

切块从给定的立方体中选择两个或多个维度,并提供一个新的子立方体。请考虑以下显示切块操作的图表。

dice

基于以下选择条件的切块操作涉及三个维度。

  1. (位置 =“多伦多”或“温哥华”)

  2. (时间 =“Q1”或“Q2”)

  3. (项目 =“移动”或“调制解调器”)

Pivot

枢轴操作也称为旋转。它围绕视图中的数据轴旋转,以便提供数据的替代表示。请考虑以下显示枢轴操作的图表。

pivot

OLAP vs OLTP

Sr.No.

Data Warehouse (OLAP)

Operational Database (OLTP)

1

涉及对信息的此外处理。

Involves day-to-day processing.

2

OLAP 系统被知识工作者使用,例如高管、经理和分析师。

OLTP 系统由文员、DBA 或数据库专业人员使用。

3

有助于分析业务。

有助于运行业务。

4

它专注于信息输出。

它专注于数据输入。

5

基于星型架构、雪花型架构、架构和事实星座架构。

基于实体关系模型。

6

Contains historical data.

Contains current data.

7

提供汇总和合并后的数据。

提供原始和非常详细的数据。

8

提供汇总和多维的数据视图。

提供数据的详细且平坦的关联视图。

9

用户数量以百计。

用户数量以千计。

10

已访问记录的数量以百万计。

已访问记录的数量以十计。

11

数据库大小为 100 GB 至 1 TB

数据库大小为 100 MB 至 1 GB。

12

Highly flexible.

Provides high performance.