Dwh 简明教程

Data Warehousing - Overview

“数据仓库”这一术语最早由比尔·因蒙于 1990 年创造。根据因蒙的说法,数据仓库是主题导向、集成、随时间变化且不可变的数据集合。这些数据可帮助分析师在组织中做出明智的决策。

操作数据库每天都在频繁更改,原因是会发生交易。假设业务经理想要分析有关任何数据的先前反馈,例如产品、供应商或任何消费者数据,那么经理将没有可用数据进行分析,因为先前数据已因交易而更新。

数据仓库通过多维视图为我们提供概括和汇总数据。除了概括和汇总的数据视图外,数据仓库还为我们提供了联机分析处理 (OLAP) 工具。这些工具可以帮助我们以交互式且有效的方式分析多维空间中的数据。这种分析可生成数据概括和数据挖掘。

关联、聚类、分类、预测等数据挖掘功能可以与 OLAP 操作集成,以在多个抽象层级中增强交互式知识挖掘。这就是为什么数据仓库现在已成为数据分析和联机分析处理的重要平台。

Understanding a Data Warehouse

  1. 数据仓库是一个数据库,与组织的操作数据库分开存放。

  2. 数据仓库中没有频繁更新。

  3. 它拥有经整合的历史数据,可帮助组织分析其业务。

  4. 数据仓库可帮助高管们组织、理解和利用其数据以做出战略决策。

  5. 数据仓库系统可帮助集成不同的应用程序系统。

  6. 数据仓库系统可帮助分析经整合的历史数据。

Why a Data Warehouse is Separated from Operational Databases

数据仓库与操作数据库分开放置,原因如下−

  1. 操作数据库用于已知任务和工作负载,如搜索特定记录、索引等。而数据仓库查询通常很复杂,提供数据的一般形式。

  2. 操作数据库支持对多个事务的并发处理。操作数据库需要并发控制和恢复机制来确保数据库的鲁棒性和一致性。

  3. 操作数据库查询允许读取和修改操作,而 OLAP 查询只需对存储的数据进行 read only 访问。

  4. 操作数据库维护当前数据。而数据仓库则维护历史数据。

Data Warehouse Features

数据仓库的关键特性如下所述−

  1. Subject Oriented − 数据仓库是面向主题的,因为它提供与主题相关的信息,而不是组织的持续运营。这些主题可以是产品、客户、供应商、销售、收入等。数据仓库不关注持续运营,而是关注为决策建模和分析数据。

  2. Integrated − 数据仓库通过集成来自不同来源的数据构建而成,如关系数据库、平面文件等。此集成增强了对数据的有效分析。

  3. Time Variant − 数据仓库中收集的数据已识别出特定的时间段。数据仓库中的数据提供了历史观点的信息。

  4. Non-volatile − 非易失性是指当向其中添加新数据时以前的数据不会被擦除。数据仓库与操作数据库分开存储,因此操作数据库的频繁变化不会反映在数据仓库中。

Note − 数据仓库不需要事务处理、恢复和并发控制,因为它被物理存储并与操作数据库分开。

Data Warehouse Applications

如前所述,数据仓库帮助企业管理人员组织、分析并使用其数据进行决策。数据仓库是企业管理“闭环”反馈系统的计划执行评估的一部分。数据仓库广泛用于以下领域−

  1. Financial services

  2. Banking services

  3. Consumer goods

  4. Retail sectors

  5. Controlled manufacturing

Types of Data Warehouse

信息处理、分析处理和数据挖掘是接下来讨论的三种数据仓库应用程序−

  1. Information Processing − 数据仓库允许处理存储在其中的数据。可以通过查询、基本统计分析、使用交叉表、表格、图表或图形进行报告来处理数据。

  2. Analytical Processing − 数据仓库支持对其中存储的信息进行分析处理。可以通过基本 OLAP 操作来分析数据,包括切片、下钻、上钻和旋转。

  3. Data Mining − 数据挖掘通过查找隐藏的模式和关联、构建分析模型、执行分类和预测来支持知识发现。这些挖掘结果可以使用可视化工具呈现。

Sr.No.

Data Warehouse (OLAP)

Operational Database(OLTP)

1

它涉及对信息的处理。

It involves day-to-day processing.

2

OLAP 系统由知识工作者(如高管、经理和分析师)使用。

OLTP 系统由文员、DBA 或数据库专业人员使用。

3

用于分析业务。

它用于经营业务。

4

它专注于信息输出。

它专注于数据输入。

5

它基于星型模式、雪花模式和事实星座模式。

它基于实体关系模型。

6

它专注于信息输出。

It is application oriented.

7

It contains historical data.

It contains current data.

8

它提供汇总和合并的数据。

它提供原始和高度详细的数据。

9

它提供数据汇总和多维视图。

它提供详细的平面关系数据视图。

10

用户数量为数百。

用户数量为数千。

11

访问的记录数以百万计。

访问的记录数为几十。

12

数据库大小从 100GB 到 100 TB。

数据库大小从 100 MB 到 100 GB。

13

These are highly flexible.

It provides high performance.