Melden Sie sich hier an, um auf Kommentare und die Whitepaper-Datenbank zugreifen zu können.

Kein Log-In? Dann jetzt kostenlos registrieren.

Falls Sie Ihr Passwort vergessen haben, können Sie es hier per E-Mail anfordern.

Der Zugang zur Reseller Only!-Community ist registrierten Fachhändlern, Systemhäusern und Dienstleistern vorbehalten.

Registrieren Sie sich hier, um Zugang zu diesem Bereich zu beantragen. Die Freigabe Ihres Zugangs erfolgt nach Prüfung Ihrer Anmeldung durch die Redaktion.

02.05.2003 - 

Disaster Recovery/Disaster Recovery für den Notfall

Datensicherung alleine reicht nicht aus

In den letzten Jahren hat das Thema Datensicherheit auch für deutsche Unternehmen an Bedeutung gewonnen. Nicht zuletzt seit den Terroranschlägen am 11. September 2001 ist das Bewusstsein für reale Gefahren geschärft worden.Von Uwe Cudok*

Unternehmen haben erkannt, welche entscheidende wirtschaftliche Bedeutung der permanenten Datenverfügbarkeit zukommt. Der finanzielle Schaden, den Unternehmen durch den Ausfall ihrer IT-Systeme erleiden, kann verheerend sein, im schlimmsten Fall droht der Totalverlust. Nach einer Studie der Meta Group erholen sich nahezu 60 Prozent der Unternehmen nicht mehr von den Auswirkungen, die eine durch Feuer, Erdbeben oder andere Einwirkungen verursachte Katastrophe mit sich bringt. Dies liegt vor allem am Verlust der geschäftskritischen Datenbasis und der IT-Infrastruktur eines Unternehmens.

Immer mehr Geschäftsprozesse laufen IT-gestützt. Das führt nicht nur dazu, dass ohne IT buchstäblich nichts mehr geht, sondern bewirkt auch, dass zunehmend größere Datenmengen von den Systemen verarbeitet werden müssen. Datenwachstumsraten von 100 Prozent jährlich sind heute keine Seltenheit. Diese Informationen müssen gesichert werden und regelmäßige Backups dieser riesigen Datenmengen gehören deshalb zum Standard. Doch damit ist das Problem nur scheinbar gelöst, denn die Datensicherung ist zwar eine notwendige Voraussetzung für Daten- und Systemsicherheit, reicht jedoch alleine nicht aus. Ob es nach einem Ausfall nämlich gelingt, mit den Backup-Bändern das System wieder in Betrieb zu nehmen, ist in vielen Fällen fraglich: Getestet wird der Ernstfall bislang kaum. Benötigt werden somit systematische und umfassende Sicherheitsvorkehrungen - Aufgabe des Fachgebietes Disaster Recovery.

Notfallplan Disaster Recovery

Disaster Recovery plant die Überwindung eines Notfalls: Wie versetze ich meine IT nach einem Ausfall wieder in den ordentlichen Betriebszustand? Das ist die bange Frage, der sich Systemadministratoren zu stellen haben. Der professionelle Notfallplan schreibt konkret vor, wer wann was zu tun hat, damit das System wieder funktionieren kann. Der Plan beinhaltet außerdem die Überprüfung und das Testing der Notfallmaßnahmen, was mit der regelmäßigen Überprüfung des Backups beginnt. Häufiger als angenommen hat man es mit physisch unbrauchbaren Bändern zu tun. Noch gravierender ist das Problem der logisch unzureichenden Backups, bei denen korrupte oder inkonsistente Daten beziehungsweise nicht hinreichende Datenmengen gesichert werden. Manchmal findet sich in den Sicherungskopien ein alter Konfigurationsstand der Datenbank, was jeweils dazu führt, dass das System nicht nahtlos in den Zustand vor dem Ausfall zurückversetzt werden kann. Eine weitere Schwierigkeit stellt auch die inkrementelle Datensicherung dar, bei der wegen des hohen Datenaufkommens jeweils nur die Änderungen am Datenbestand gesichert werden. Schon wenn nur eine kleine Datenmenge in der Änderungshistorie verloren geht, lässt sich eine Rückkehr nur für den zeitlich vor dieser Lücke liegenden Datenstand realisieren. Kurz: Viele Unternehmen erleben eine böse Überraschung, wenn sie ihre vermeintlich so sicheren Backup-Bänder einmal tatsächlich auf ihre Funktionsfähigkeit testen.

Im gleichen Zusammenhang steht das Problem der Systemumgebung. Selbst wenn die Bänder physikalisch und logisch funktionsfähig sind, ist eine erfolgreiche "Wiederbelebung" noch nicht garantiert. In den Zeiten der Anwendungsintegration werden Daten durch sämtliche Systeme im Unternehmen übertragen und von einer großen Anzahl von Applikationen verarbeitet. Das schwächste Glied in der Kette bestimmt daher stets die Leistung und Sicherheit des Gesamtsystems. Doch die eigentliche Herausforderung liegt nicht einmal im Wiederanlauf des Einzelsystems, sondern darin, einen erneuten Datenabgleich zwischen allen beteiligten Systemen herzustellen. Hinzu kommt die Vielzahl der fachlichen Schnittstellen zwischen den einzelnen Applikationen, die schnell zu einer hoch komplexen Situation führt: Fällt ein Gerät aus, bleiben die anderen Systeme deswegen noch nicht stehen - hier werden weiterhin Daten eingegeben und verarbeitet. Selbst an einer scheinbar einfachen Aufgabe wie einer IT-gestützen Rechnungslegung sind viele Server beteiligt: Systeme und Datenbanken für Kundendaten, Vertragsdaten, Rechnungsdaten etc. Nur bei synchron arbeitenden Maschinen erübrigt sich der Rollback bis zum Eintreten des Fehlers auf einem System.

Systematische Vorsorge

So unwahrscheinlich es klingt: Einfacher wird es letztlich, wenn der so genannte K-Fall eingetreten ist, der Katastrophenfall. Nach einem Totalausfall kann - wenn entsprechend vorgesorgt wurde - das gesamte Rechenzentrum unverzüglich wieder in Gang gebracht werden. Dazu muss zuerst entschieden werden, welchen Grad von Absicherung der DV-Systeme ein Unternehmen überhaupt benötigt - jede zusätzliche Sicherheitsstufe ist schließlich mit hohen Kosten verbunden. Um eine angemessene Entscheidung treffen zu können, sollten die folgenden Fragen gestellt werden: Mit welcher Wiederanlaufzeit müssen meine Systeme wie schnell verfügbar sein? Welche Auswirkungen hat der Ausfall auf meinen Cashflow und meine Produktion? Wie reagieren (potenzielle) Kunden auf einen Ausfall, etwa wenn ein Online-Shop stundenlang nicht verfügbar ist? Davon ausgehend ist die Kostenrechnung zu machen. Grundsätzlich gilt dabei, dass die Verfügbarkeit von Systemen grob in die drei Kategorien Basis-, Hoch- und Höchstverfügbarkeit unterteilt werden kann.

Sicherheitsstufe 1: Basisverfügbarkeit

Der Kategorie Basisverfügbarkeit kann man diejenigen Systeme zuordnen, bei denen wichtige systeminterne Komponenten, etwa Festplatten, Netzwerkkarten und Stromversorgung, redundant auszulegen sind. In diese Kategorie fallen auch die Raid-Systeme (Raid = Redundant Array of Inexpensive Disks - Redundantes Auslegen von Festplatten), die man häufig schon in den Standardkonfigurationen der Server-Hersteller vorfindet. Die meistverwendeten Systeme zur Ausfallsicherheit sind Raid 1, worunter man das Spiegeln oder Mirroring versteht - hier werden die Daten gleichzeitig auf zwei verschiedene Festplatten geschrieben -, sowie Raid 5, das für eine verteilte Speicherung mit Parität steht. Bei Raid 5 sind mindestens drei Festplatten involviert: Die einzelnen Datenblöcke werden auf mehreren Festplatten verteilt abgespeichert. Zusätzlich zu den Nutzdaten werden noch so genannte Error-Correcting-Code-(ECC-) oder Parity-Informationen gespeichert, um bei Schreibfehlern auf einer der Platten die Inkonsistenz erkennen und beheben zu können. Zur Risikominimierung können zusätzlich auch der gesamte Server, die unterbrechungsfreie Stromversorgung (USV) sowie weitere wichtige Netzwerkkomponenten (Router, Switch) redundant ausgelegt werden.

Sicherheitsstufe 2: Hochverfügbarkeit

Möchte man eine Applikation noch besser vor Ausfall schützen, sollte man je nach Anforderung auf Standby-Systeme oder Cluster setzen. Im Rahmen der Hochverfügbarkeit stehen drei Arten von Standby-Systemen zur Verfügung: Cold, Warm und Hot Standby. Als Cold Standby wird eine Hardwarelösung bezeichnet, bei der die Applikation im Fehlerfall auf einem Ersatzsystem ablaufen kann. Das reduziert die Ausfallzeit auf die Anlaufzeit des Ersatzsystems. Möchte man die Ausfallzeit weiter nach unten drücken, kommen Warm-Standby-Systeme zum Einsatz. Hier arbeiten jeweils zwei Systeme aktiv, jedoch nimmt nur ein System an den regulären Arbeitsvorgängen teil. Die Datenbestände werden periodisch synchronisiert. Im Fehlerfall ist jedoch auch hier wie bei allen vorgenannten Lösungen ein manuelles Eingreifen erforderlich.

Um die Wiederanlaufzeit nochmals zu verkürzen, kann auch ein Hot-Standby-System verwendet werden. Dabei arbeiten zwei idealerweise ausstattungsidentische Maschinen parallel - nur eine davon ist jedoch aktiv. Die Systeme synchronisieren ihren Datenbestand permanent. Fällt das aktive System aus, übernimmt das zweite automatisch dessen Funktion. Ein solches System wird auch als Failover-Cluster bezeichnet. Wichtigster Unterschied zur Gruppe der Warm-Standby-Lösungen ist die sehr kurze Ausfallzeit, da die Systeme vollautomatisch ohne jeden manuellen Eingriff umgeschaltet werden.

Ein Betrieb ohne jegliche Ausfallzeit kann nur durch ein Active-Active-Cluster erreicht werden. Bei dieser Lösung arbeiten zwei oder mehr Systeme im ständigen Wirkbetrieb, so dass im Fehlerfall lediglich die Rechenlast des ausgefallenen Servers von den verbliebenen Systemen übernommen werden muss. Hier wird der Ausfall tatsächlich vermieden.

Auch die Umgebung der Systeme spielt bei der Erwägung der Sicherheit eine entscheidende Rolle. Sollte es etwa zu einer längeren Unterbrechung der Stromversorgung kommen, nützt auch die redundant ausgelegte USV nichts mehr. In so einem Fall helfen nur Notstromaggregate. Auch separate Brandabschnitte innerhalb eines Standorts verringern das Risiko eines Systemausfalls erheblich.

Sicherheitsstufe 3: Höchstverfügbarkeit

Sollen Systeme über alle diese Maßnahmen hinaus noch weiter abgesichert werden, spricht man von Höchstverfügbarkeit. Bei ihr werden alle Techniken der Hochverfügbarkeit voll ausgeschöpft. Zusätzlich wird das System gesamt oder teilweise an einen physikalisch weit entfernten Ausweichstandort gespiegelt, was es sehr zuverlässig vor unvorhersehbaren Ereignissen und Katastrophen schützt. Da eine solche Lösung aber sehr teuer ist, kommt sie nur in Frage, wenn durch den Ausfall der Systeme auch ein entsprechend hoher Verlust zu befürchten wäre oder gesetzliche Regelungen dies verlangen.

Ein präzise Risikoanalyse hilft, die Kosten der Absicherung exakt zu beziffern und so letztendlich die richtige Entscheidung treffen zu können. Die Industrie hat dazu Rechenmodelle erstellt. Die Herausforderung besteht darin, möglichst genau zu kalkulieren und so die richtige Balance zu finden: Zu hohe Kosten können wirtschaftliche Risiken bergen, ein zu hohes Sicherheitsrisiko dagegen hat entsprechend fatale Konsequenzen im Fehlerfall.

Geschultes Personal

Um Datensicherheit zu gewährleisten, sind jedoch nicht nur technische Voraussetzungen notwendig. Als ebenso wichtig erweisen sich organisatorische Vorbereitungen und "weiche" Sicherheitsmaßnahmen, bei denen es um die Frage geht, wie ein Unternehmen sich vor einem möglichen Ausfall der Administratoren schützt. Bei hoch verfügbaren Systemen, die an zwei Standorten betrieben werden, steht immer auch das Verwaltunsgpersonal mehrfach zur Verfügung. Was geschieht aber bei einem nur durchschnittlich gesicherten System, wenn für den Wiederanlauf der Administrator nicht zur Stelle ist? Um dieser Lage Herr zu werden, ist es wichtig, dass auch Mitarbeiter mit nur allgemeiner Systemkenntnis den Ablauf zur Inbetriebnahme kennen. Insgesamt gilt: Unabhängig davon, für welche Lösung man sich entscheidet, kann es Sicherheit nur geben, wenn der Ernstfall auch geprobt wird. (kk)

*Uwe Cudok ist Systemintegrator bei der SPM Technologies GmbH in Berlin.

Abb.1: Stufen der Verfügbarkeit

Ein Mehr an Sicherheit verursacht auch höhere Kosten. IT-Chefs müssen gegebenenfalls die Wichtigkeit jeder einzelnen Applikation für das Überleben des Unternehmens einordnen. Quelle: SPM Technologies

Abb.2: Kosten-Nutzen-Vergleich

Dem Wert der Investition für Sicherheitsmaßnahmen sind die Kosten gegenüberzustellen, die ein Ausfall der Systeme verursacht. Quelle: SPM Technologies