Dwh 简明教程
Data Warehousing - Delivery Process
数据仓库绝不是一成不变的;它会随着业务的扩展而不断发展。随着业务发展,其需求不断变化,因此必须设计一个数据仓库来应对这些变化。因此,数据仓库系统需要具有灵活性。
理想情况下,应该有一个交付流程来交付数据仓库。然而,数据仓库项目通常会受到各种问题的困扰,使得按照瀑布方法要求的严格有序的方式完成任务和交付成果变得困难。大多数时候,需求并没有被完全理解。只有在收集并研究所有需求后,才能完成架构、设计和构建组件。
Delivery Method
交付方法是为交付数据仓库而采用的联合应用程序开发方法的一种变体。我们对数据仓库交付流程进行了分阶段,以最大程度降低风险。我们将在此处讨论的方法并没有缩短整体交付时间表,而是确保在开发过程中逐步交付业务收益。
Note - 交付流程被分解成各个阶段以降低项目和交付风险。
下图解释了交付过程中的各个阶段 -
Business Case
商业案例的目的是估算企业在使用数据仓库时应考虑的收益。这些收益可能无法量化,但预计的收益需要明确表述。如果某个数据仓库没有明确的商业案例,那么该数据仓库在交付过程中的某个阶段可能会存在信誉问题。因此,在数据仓库项目中,我们需要了解投资的商业案例。
Education and Prototyping
在确定解决方案之前,各种组织会尝试数据分析概念,并自学数据仓库的价值。通过原型展示来满足这一目标。它有助于了解数据仓库的可行性和收益。小规模的原型展示活动可以促进教育过程的发挥,只要满足以下条件:
-
原型展示满足既定的技术目标。
-
在展示可行性概念后,可以不再采用该原型展示。
-
该活动涉及数据仓库的现有数据内容的一小部分。
-
活动时标没有必要。
以下几点对于产生早期版本并满足收益至关重要:
-
识别一个能够不断发展的架构。
-
重点在于业务需求和技术蓝图阶段。
-
将第一构建阶段的范围限制在满足业务需求的最低限度。
-
了解数据仓库的短期和中期需求。
Business Requirements
为提供高质量的交付成果,我们应确保了解整体需求。如果我们了解了短期和中期的业务需求,那么就能够设计一个解决方案来满足短期需求。随后可以将短期解决方案扩展至一个完整的解决方案。
此阶段确定以下方面:
-
应用于数据的业务规则。
-
数据仓库中信息所需的逻辑模型。
-
即时需求的查询配置文件。
-
提供该数据的源系统。
Technical Blueprint
此阶段需要交付一个满足长期需求的整体架构。该阶段还会交付应在短期内实施以实现业务收益的组成部分。蓝图需要识别以下内容:
-
The overall system architecture.
-
The data retention policy.
-
备份和恢复策略。
-
服务器和数据市集架构。
-
硬件和基础设施的容量计划。
-
数据库设计的组件。
History Load
这是将所需的剩余历史记录加载到数据仓库中的阶段。在此阶段,我们不会添加新实体,但可能会创建其他物理表来存储增加的数据量。
让我们举个例子。假设构建版本阶段已交付了一个包括两个月历史记录的零售销售分析数据仓库。此信息将允许用户仅分析最近的趋势并解决短期问题。在这种情况下,用户无法识别每年的季节性趋势。为了帮助他这样做,可以从归档中加载过去两年的销售历史记录。现在,40GB 数据已扩展到 400GB。
Note − 备份和恢复过程可能会变得很复杂,因此建议在单独的阶段中执行此活动。
Automation
在此阶段,操作管理过程已完全自动化。这些内容包括:
-
将数据转换为适合分析的格式。
-
监视查询概要文件并确定适当的汇总以维持系统性能。
-
从不同的源系统中提取和加载数据。
-
从数据仓库中的预定义定义中生成汇总。
-
备份、恢复和存档数据。