Ratgeber: Disaster-Recovery-Verfahren

19.09.2007 von Johann Baumeister

Herkömmliche Wiedergewinnungskonzepte sehen meist das Backup von Daten und die Neueinrichtung eines Servers vor. Neue Techniken berücksichtigen auch Applikationen, Prozesse und Standorte.

Geschäftsprozesse werden durch Applikationen und die von ihnen verwalteten Daten abgebildet. Sie aufrechtzuerhalten, ist Ziel der "Business Continuity", auch "High Availability" genannt. Da Daten und Prozesse stets zusammengehören, verwundert es, dass sich Disaster Recovery meist nur der Sicherung und Wiederherstellung der Daten widmete. Ein Grund hierfür dürfte in der "Unveränderlichkeit" der Programme liegen - verglichen mit der Flüchtigkeit der Daten.

Blieben Applikationen in der Vergangenheit vielleicht für ein Jahr unverändert, änderten sich die Daten mit jeder Sekunde. Im Fehlerfall werden die Server neu gestartet und die Daten neu zugewiesen. Je nach Systemumgebung kann dieser Vorgang Minuten, aber auch Tage in Anspruch nehmen.

In typischen Großrechnerumgebungen gibt es zudem feste Wartungszeiten, in denen die Dienste (kontrolliert) nicht zur Verfügung stehen. Wegen des Rund-um-die-Uhr-Betriebs, Home-Office-Arbeit mit freier Zeiteinteilung sowie weltweiter Internet-Präsenz lassen sich diese Konzepte kaum noch aufrechterhalten. Durch häufige Software-Updates verändern sich auch die Applikationen. Zwar wird kein Unternehmen seine Server dem monatlichen Patch-Diktat der Hersteller unterwerfen, so mancher Fix ist allerdings unumgänglich.

Der Standort gehört ins Konzept

Neben Daten und Prozessen, die es gemeinsam abzusichern gilt, beeinflusst eine dritte Größe die Business Continuity: der Schutz des Standorts gegen Katastrophen wie Hochwasser, Stürme oder Stromausfall. Disaster Recovery muss demnach die Server mit den Applikationen, die Daten sowie den Standort absichern.

Die Sicherungskonzepte müssen jedoch aufeinander abgestimmt sein, denn die permanente Verfügbarkeit einer Applikation nützt wenig, wenn nach einem Ausfall ein langwieriger Restore (Wiederherstellung) der Daten erforderlich wird. Für Hochverfügbarkeit müssen Datensicherung und Prozessabsicherung daher im Einklang miteinander stehen. Die folgenden Ansätze reichen von RAID-Techniken bis hin zu Failover-Systemen im WAN. Beschrieben wird ihre Eignung, Daten, Applikationen und Standorte zu sichern.

Traditionelle Datensicherung mittels RAID

Die RAID-Technik, vor allem die RAID-Level 1 bis 5, zählt zu den herkömmlichen Methoden der Datensicherung gegen Ausfall. Neuere Verfahren wie etwa 5E, 6 oder eine Kombination von Levels verkraften auch den gleichzeitigen Ausfall von zwei Platten im Verbund. Mit den Plattenkapazitäten wächst im Fehlerfall auch die Zeit, die man braucht, um die Daten wiederherzustellen.

Um diesen Zeitraum gesichert zu überbrücken, empfehlen die Hersteller die RAID-Level 5E und 6. RAID-Systeme können nur die auf ihnen hinterlegten Daten und Applikationen gegen Ausfall absichern. Andere Hardwarekomponenten bleiben ungeschützt, außerdem lässt sich keine Standortsicherung vornehmen.

Die Abhängigkeiten zwischen RAID-Level, Performance und Ausfallsicherheit fasst die folgende Tabelle noch einmal zusammen. Wie sich deutlich erkennen lässt, bringt jedes der RAID-Verfahren dabei spezifische Vor- und Nachteile auf die Waagschale.

RAID-Level im Vergleich
	RAID 0	RAID 1	RAID 10	RAID 2	RAID 3	RAID 4	RAID 5	RAID 6
() Als Faktor gegenüber einem Einzellaufwerk. (*) Worst-case-Angabe. Im günstigsten Fall können n/2 Laufwerke ohne Datenverlust ausfallen.
Anzahl Laufwerke	n > 1	n = 2	n > 3	N = 10	n > 2	n > 2	n > 2	n > 3
Redundante Laufwerke	0	1	1(**)	2	1	1	1	2
Kapazitäts-overhead (Prozent)	0	50	50	20	100 / n	100 / n	100 / n	200 / n
Parallele Lese-operationen	n	2	n / 2	8	n - 1	n - 1	n -1	n - 2
Parallele Schreib-operationen	n	1	1	1	1	1	n / 2	n / 3
Maximaler Lese-durchsatz (*)	n	2	n / 2	8	n - 1	n - 1	n - 1	n - 2
Maximaler Schreib-durchsatz (*)	n	1	1	1	1	1	n / 2	n / 3

Ausführliche Informationen zum Thema RAID liefert Ihnen der Beitrag RAID im Überblick.

Backup-Systeme

Backup-Systeme sichern regelmäßig Daten und Anwendungen, nicht aber einen gesamten Server-Zustand. Als Medium werden Bänder, Bandbibliotheken und zunehmend auch Platten eingesetzt. Im Fehlerfall werden die Daten auf einem bereits vorhandenen Standby-Server oder einem ad hoc eingerichteten System wiederhergestellt. Für die Langzeitsicherung und Archivierung sind Bänder unschlagbar, im Hinblick auf die für einen Wiederanlauf benötigte Zeit jedoch langsam und träge. Die Standortabsicherung unterstützen sie nur insofern, als die Daten ortsunabhängig wiederhergestellt werden können. Dazu müssen die Backup-Medien allerdings vom abzusichernden Standort entfernt aufbewahrt werden.

Virtuelle Tape Libraries haben den Vorteil, dass sie Bänder überflüssig machen. Wer sich darauf einlässt, verzichtet aber auf die Standortabsicherung und die Trennung von Quell- und Sicherungsdaten.

Eine besondere Rolle kommt den Backup-Systemen bei der Absicherung von Firmenfilialen zu: Hierbei werden die Daten in den Außenstellen – gesteuert durch einen Server - auf ein zentrales System gesichert. Damit sparen sich die Niederlassungen Backup-Technik und IT-Fachpersonal. Die Zentrale sichert dann die Daten mittels herkömmlicher Bandverfahren.

Der größte Nachteil der periodischen Datensicherung ist ihre Trägheit. So kann sich ein Datenverlust über einen ganzen Tag erstrecken, und die Wiederherstellung dauert häufig ebenso lang. In diesem Zusammenhang werden heute meist zwei Ziele definiert: "Recovery Point Objective" (RPO) und "Recovery Time Objective" (RTO). RPO bezeichnet das Intervall zwischen den einzelnen Sicherungen. Mit dem RPO wird damit auch festgelegt, wie viele Daten und Transaktionen maximal verloren gehen dürfen. Bei nächtlicher Sicherung kann der Recovery Point also bis zu 24 Stunden oder einen Arbeitstag zurückliegen. Mit dem RTO wiederum wird die maximal zulässige Zeitspanne für die Wiederherstellung der Dienste definiert. Beide Zielvorgaben sollten so niedrig wie möglich sein, denn prinzipiell gilt: Je niedriger RPO und RTO, desto schneller der Wiederanlauf.

Continuous Data Protection (CDP)

Mit den herkömmlichen Backup-Techniken sind also nur verhältnismäßig langwierige Recovery-Szenarien machbar. Um dem zu begegnen, bieten Hersteller seit wenigen Jahren unter dem Motto "Continuous Data Protection" (CDP) alternative Varianten zur Datensicherung an, die mit den herkömmlichen Backup-Konzepten so gut wie nichts gemein haben. Das beginnt bereits bei der Sicherungsfrequenz: Meist liegen ihr weitaus kürzere Intervalle – Stunden oder noch geringere Zeitabstände - zugrunde. Damit sinkt der RPO-Wert erheblich.

Aber auch das Sicherungsverfahren ist anders geartet: Statt wie bisher über das Dateisystem zu operieren, wird die Snapshot-Technik angewandt. Im Fall von Windows beruht diese auf den "Shadow Copy Services" von Microsoft. Dieser Dienst ermöglicht eine schnelle Kopie des gewünschten Bereichs und seiner Inhalte.

Als Sicherungsmedium dienen stets Plattensysteme, die sich über beliebige IP-Strecken anbinden lassen. Indirekt erfüllen die CDP-Systeme damit die Forderung nach einer Standortabsicherung. Ein weiterer Unterschied zu traditionellen Backups: Die Benutzer können Dateien häufig selbst rücksichern, wodurch der RTO-Wert im günstigsten Fall gegen null tendiert. Snapshots stellen eine Eins-zu-eins-Kopie des Originals dar, sind daher schnell erzeugt, kosten aufgrund ihres Volumens aber Plattenplatz. Folglich ist ihre Anzahl durch die Plattenkapazität begrenzt. Alternativ lassen sich Snapshots mit den traditionellen Sicherungsverfahren auf Band auslagern, wobei der Vorteil eines schnellen Restore allerdings verloren geht.

Aufgrund der Beständigkeit der Applikationen orientieren sich alle bisher beschriebenen Verfahren nahezu ausschließlich an den Daten. Geht es um die Absicherung der Prozesse, kommen traditionell Ersatzsysteme zum Einsatz, die als Notfall-Server bereitstehen oder erst noch installiert werden müssen. Statt diese Ersatzhardware jedoch ungenutzt zu lassen, sollten Anwender sie besser in einen Cluster-Verbund einbringen. Dabei teilen sich mehrere gleichartige Server-Systeme durch vorgeschaltete Load Balancer die Last.

Clustering

Das Clustering von Systemen hat den großen Vorteil, dass es für Performance-Gewinn bei gleichzeitig höherer Verfügbarkeit sorgt und nahezu beliebig skalierbar ist. Der Nachteil: Nicht alle Applikationen sind Cluster-fähig. Für den rein lesenden Zugriff wie etwa bei Web-Auskunftssystemen ist das kein Problem, wohl aber für Anwendungen, die häufig Daten ändern. Neben der hier aufgeführten Cluster-Definition, bei der alle Server im Cluster immer aktiv sind und sich die Last teilen, gibt es auch andere, eher den Failover-Lösungen zuzuordnende Konzepte. Dabei steht ein Zweitsystem passiv bereit, das das primäre System überwacht und im Fehlerfall dessen Rolle übernimmt.

Zu den neuesten Entwicklungen gehört das Clustering von Host und Gastsystemen bei der Server-Virtualisierung. Beim "Guest Clustering" bilden sämtliche Gäste einer virtuellen Umgebung einen Rechnerverbund. Vorgeschaltete Balancer verteilen dann die Last auf die Gäste. Die grundsätzlichen Anforderungen bei geclusterten Systemen gelten auch hier.

Imaging

Eine andere Variante zum Absichern von Prozessen ist das Imaging. Hierbei wird die gesamte Festplatte oder Partition eines Rechners kopiert. Das Imaging operiert nicht auf Datei-, sondern auf Sektorebene und arbeitet daher konkurrenzlos schnell. Es eignet sich vor allem dann, wenn von einem Rechnersystem eine Kopie erzeugt beziehungsweise diese im Fehlerfall schnell wiederhergestellt werden muss ("Bare Metal Restore"). Nachteilig ist allerdings, dass beim Imaging die Rücksicherung meist nur auf nahezu identische Hardware erfolgen darf.

Wie erwähnt, wurde beim Imaging ursprünglich stets das gesamte System kopiert. Mittlerweile gibt es aber auch inkrementelle Verfahren, bei denen - ähnlich wie bei den Backup-Konzepten - zuerst das gesamte System und danach nur noch die Änderung gesichert werden.

Das Imaging wird vor allem zur Server-Sicherung eingesetzt. Zur Sicherung von Daten eignet es sich nur, wenn sich diese kaum ändern. Zudem lässt sich angesichts der dabei verwendeten, meist relativ großen Intervalle keine zeitnahe Sicherung (wie beim CDP) realisieren. Zur Sicherung von Applikationen und Standort mag Imaging jedoch hilfreich sein.

Konzepte im Vergleich

Das Gros der genannten Konzepte geht implizit von einem DAS (Direct Attached Storage) aus. SAN (Storage Area Network) und NAS (Network Attached Storage) bedürfen anderer Sicherungsverfahren. Sie werden primär eingesetzt, um Speichersysteme zu konsolidieren.

Da SAN/NAS Rechner vom Speicher trennen, ermöglichen sie einen schnellen Restore. Gleichzeitig bieten die Hersteller in der Regel eigene Vorrichtungen zur Sicherung der Daten, dem Mirroring, an. Dabei werden die Daten eins zu eins auf einen zweiten Pool im SAN übertragen. Diese Replikation kann synchron oder asynchron erfolgen.

Disaster-Recovery: Konzepte im Vergleich
	Sicherung der Daten	Sicherung der Applikation	Sicherung des Standorts	Wiederanlauf / RTO	Kosten

RAID-Plattensysteme	ja	ja	nein	kein Ausfall, wenn durch RAID abgefedert	gering
Periodische Sicherung auf Band	ja	ja	nur, wenn Bänder verlagert werden	langsam	gering
Periodische Sicherung auf Platte	ja	ja	nur über Speichersysteme	langsam	gering bis mittel
Kontinuierliche Sicherung auf Platte	ja	nein	nur über Speichersysteme	mittel	gering bis mittel
Speichersysteme (NAS, SAN)	Sicherung durch integrierte Mirroring-Funktionen	möglich mittels Virtualisierung	ja, über Netzstrecke	schnell	hoch
Imaging von Systemen	bedingt möglich	ja	nur, wenn Images verlagert werden	langsam bis mittel	gering
Applikations-Cluster	nein	ja	ja, über Netzstrecke	schnell für Applikationen	mittel
Standby-Failover-Systeme	ja	ja	ja, über IP-Strecken	schnell	mittel
Virtualisierung	Sicherung durch integrierte Mirroring-Funktionen	möglich durch Failover	ja, über IP-Strecken	schnell für Applikationen	mittel
Ausfall-Rechenzentrum	ja	ja	ja	schnell	extrem hoch

Durch synchrone Replikation lässt sich höchstmögliche Aktualität bei gleichzeitiger Performance-Einbuße erreichen. Umgekehrt steigt bei der asynchronen Replikation die Performance auf Kosten der Datenaktualität. Eine Eigenheit der asynchronen Replikation ist ihre räumliche Unabhängigkeit: Während synchrone Verfahren meist über SAN-Netze abgewickelt werden und folglich deren Hardware-Chakteristika unterliegen, ist die asynchrone Replikation von der verwendeten Basistechnik unabhängig.

Die Sicherung der Inhalte im SAN erreicht damit beste RPO- und RTO- Werte in Bezug auf die Daten. Um hingegen Prozesse zu sichern, sind Clustering oder Failover notwendig. Der gravierendste Nachteil des SAN sind die Kosten - zumindest, wenn es sich um Fibre-Channel-SANs handelt. Hinzu kommt eine weitere Verwaltungsschicht, die zusätzliche Administration und Know-how erfordert. Mit iSCSI entkrampft sich die Kostensituation, da jeder Server ohnehin mit einem Netz-Interface ausgestattet und ferner kein dediziertes Fibre-Channel-Know-how notwendig ist. iSCSI erlaubt Speicherdatentransfers über Netze wie TCP/IP.

Bei den beschriebenen Konzepten stehen meist entweder die Daten oder die Applikationen im Fokus - kaum aber beides. Daher werden für die Absicherung im Ernstfall meist mehrere Konzepte benötigt. Um sowohl Daten als auch Applikationen gegen Ausfälle abzusichern, werden andere Verfahren eingesetzt.

Duplizierung der Komponenten

Zu solchen Verfahren gehört die Duplizierung sämtlicher Komponenten - von der Hardware über alle Softwaresysteme hinweg. Im Großen angewandt, käme dies einem Ausfall-Rechenzentrum mit identischer Hardware gleich. In extremen Einsatzszenarien, etwa im Flugverkehr, werden mitunter sogar drei Systeme parallel geschaltet.

Duplizieren lassen sich auch einzelne Server und deren Dienste. Hierbei operieren die beiden Systeme und ihre Softwaredienste parallel und unabhängig voneinander. Durch geeignete Vorkehrungen wie Hardwaresignale oder Software-Heartbeats überwachen sich die Systeme gegenseitig. Beim Ausfall einer Komponente übernimmt der noch fehlerfrei arbeitende "Partner" die Aufgaben.

Je nach Entfernung zwischen den sich gegenseitig sichernden Systemen bieten sich unterschiedliche Lösungen an: Sind diese parallel in einem Gehäuse untergebracht, übernehmen spezielle Hardwarebaugruppen die Replikation aller Signale und Softwareabläufe. In diesem Fall sind die Standorte nicht abgesichert. Bei größerer Distanz zwischen den Systemen bieten sich Konzepte an, die über SAS oder iSCSI operieren. Ist die Entfernung der zu sichernden Systeme im LAN oder WAN noch größer, lassen sich Duplizierungsszenarien definieren, die Unternehmensstandorte oder gar Kontinente überbrücken.

Bei den hier beschriebenen Failover-Systemen werden Applikationen und Daten gleichermaßen abgesichert. Ihr Ziel ist es, durch Replizierung der Daten und teilweise auch Dienste den Betrieb eines ausgefallenen Servers binnen Minuten auf einem redundant gehaltenen Zweitgerät fortzuführen. Die Überwachung des primären Servers erfolgt meist durch Watchdogs und Timer. Mitunter verlangen die Tool-Sets eine Eins-zu-eins-Abbildung des gesamten Systems, von der Hardware bis hin zur Software. Andere wiederum sind flexibler und kommen auch mit unterschiedlicher Hardware zurecht. Dabei kann ein Sicherungs-Server sogar für mehrere Primärgeräte eingesetzt werden. Diese Eins-zu-n-Abbildung erlaubt demnach die Absicherung mehrerer Server-Systeme bei reduzierten Hardware- und Lizenzkosten.

Unterschiede gibt es ferner bei der Logik der Datenreplizierung. In der Regel klinken sich die Werkzeuge in das Ein- und Ausgabesystem des Betriebssystems oder der abzusichernden Softwarekomponente ein und greifen die Schreiboperationen somit zeitnah ab. Es handelt sich dabei meist um die Operationen einer Datenbank, eines Mail- oder des Dateisystems. Folglich werden die Werkzeuge auch für Microsofts SQL Server, Microsoft Exchange oder das NTFS-Dateisystem von Windows angeboten.

Neue Ansätze durch Virtualisierung

Auch Virtualisierungskonzepte bieten neue Möglichkeiten für Disaster Recovery. Häufig werden dabei bestehende Absicherungsverfahren verknüpft. Sind etwa die System-Images auf Speichersystemen im SAN hinterlegt, kann ein laufendes System-Image durch eine überwachende Management-Software mittels Mirroring auf einen zweiten Rechner übertragen werden. Da das System-Image das Betriebssystem sowie temporäre Daten umfasst, erfolgt auf diese Weise eine Applikationsabsicherung.Unabhängig davon lässt sich die Absicherung der Daten auch durch SAN-Mirroring vornehmen. Je nach verwendeter SAN-Technik und geografischer Distanz zwischen Original und Spiegel ist sogar eine Standortabsicherung machbar.

Neue Replikationstechniken erhöhen die Verfügbarkeit. Sie kombinieren das Imaging mit der inkrementellen Sicherung der Daten und des Systemstatus. In einem ersten Schritt wird das Rechnersystem samt Daten, Applikationen und Betriebssystem auf einem weiteren Rechner als Image hinterlegt. Zur Laufzeit der Anwendung werden dann die Änderungen an den Daten, aber auch an der Konfiguration des Rechners und seiner Software laufend auf das Backup-System übertragen. Im Fehlerfall wird durch Imaging wieder ein neuer Rechner samt Daten aufgesetzt. Die hierzu benötigte Zeit hängt vom Datenvolumen ab. Da das Backup-System lediglich eine Kopie der Applikationen und Daten erhält, kann es mehrere Server gleichzeitig absichern – dies gilt sowohl für die Applikationsprozesse als auch die Daten.

Fazit

Das traditionelle Disaster Recovery ging bis dato meist von einem Störfall (dem Desaster) aus. Neben den herkömmlichen Konzepten, die im Fehlerfall einen Restore der Daten vorsehen, gibt es mittlerweile weitaus leistungsfähigere Verfahren.

Sie ermöglichen es, Applikationen, Prozesse und Standorte abzusichern und gleichzeitig die Ausfallzeiten zu reduzieren. Im Idealfall treten Ausfälle, zumindest aus der Sicht des Anwenders, gar nicht erst auf. (Computerwoche/mje/ wl)