Dwh 简明教程
Data Warehousing - Backup
数据仓库是一个复杂的系统,它包含大量数据。因此,备份所有数据非常重要,以便日后可以根据要求进行恢复。在本章中,我们将讨论设计备份策略中的问题。
Backup Terminologies
在进一步操作之前,您应该了解下面讨论的一些备份术语。
-
Complete backup − 它同时备份整个数据库。此备份包括所有数据库文件、控制文件和日志文件。
-
Partial backup − 正如其名称所示,它并没有创建数据库的完整备份。部分备份在大型数据库中非常有用,因为它们允许采用一种策略,即数据库的不同部分以循环的方式逐日备份,以便整个数据库有效地每周备份一次。
-
Cold backup − 数据库完全关闭时进行冷备份。在多实例环境中,应该关闭所有实例。
-
Hot backup − 当数据库引擎启动并运行时进行热备份。热备份的要求因 RDBMS 而异。
-
Online backup − 它与热备份非常相似。
Hardware Backup
决定使用哪种硬件进行备份非常重要。备份和恢复处理速度取决于所使用的硬件、硬件连接方式、网络带宽、备份软件和服务器 I/O 系统的速度。在这里,我们将讨论一些可用的硬件选择及其优缺点。这些选择如下所示−
-
Tape Technology
-
Disk Backups
Tape Technology
磁带选择可以分为以下几类−
-
Tape media
-
Standalone tape drives
-
Tape stackers
-
Tape silos
Tape Media
磁带介质有几种,下表列出了部分磁带介质标准−
Tape Media |
Capacity |
I/O rates |
DLT |
40 GB |
3 MB/s |
3490e |
1.6 GB |
3 MB/s |
8 mm |
14 GB |
1 MB/s |
需要考虑的其他因素如下−
-
磁带介质的可靠性
-
每单位磁带介质的成本
-
Scalability
-
磁带系统升级的成本
-
每单位磁带介质的成本
-
磁带介质的保质期
Standalone Tape Drives
磁带驱动器可以通过以下方式连接 −
-
Direct to the server
-
As network available devices
-
Remotely to other machine
将磁带驱动器连接到数据仓库可能会存在问题。
-
考虑服务器是一个 48 个节点的 MPP 机器。我们不知道连接磁带驱动器的节点,也无法知道如何将它们分散在服务器节点上,以获得最佳性能,同时最大限度地减少服务器中断和内部 I/O 延迟。
-
将磁带驱动器连接为可用的网络设备要求网络能够胜任海量数据传输速率的任务。确保在需要时有足够的带宽。
-
远程连接磁带驱动器还需要高带宽。
Tape Stackers
将多个磁带加载到单个磁带驱动器的做法称为磁带堆叠器。堆叠器在处理完当前磁带后将其卸载,然后加载下一个磁带,因此一次只能访问一个磁带。价格和功能可能有所不同,但共同点是它们可以执行无人值守的备份。
Tape Silos
磁带孤岛提供大存储容量。磁带孤岛可以存储和管理数千个磁带。它们可以集成多个磁带驱动器。它们拥有标记和存储其存储磁带的软件和硬件。孤岛通过网络或专线远程连接非常常见。我们应确保连接的带宽能够胜任任务。
Disk Backups
磁盘备份的方法有 −
-
Disk-to-disk backups
-
Mirror breaking
这些方法用于 OLTP 系统中。这些方法最大程度地减少数据库停机时间,最大限度地提高可用性。
Disk-to-Disk Backups
在此,备份是在磁盘上进行,而不是在磁带上进行。磁盘到磁盘的备份出于以下原因进行 −
-
Speed of initial backups
-
Speed of restore
从磁盘备份数据到磁盘比备份到磁带快得多。然而,这是备份的中间步骤。稍后,数据将备份到磁带上。磁盘到磁盘备份的另一个优点是,它为你提供了最新备份的在线副本。
Mirror Breaking
其理念是,在工作日内对磁盘进行镜像以提升弹性。当需要备份时,可以中断其中一个镜像集。此技术是磁盘到磁盘备份的一种变体。
Note − 数据库可能需要关闭以确保备份的一致性。