Ausfallsicherer Server-Betrieb

IT im Umbruch - Disaster Recovery reicht nicht

25.06.2013 von Ulrich Lenz
Business Continuity wird häufig auf Desaster Recovery reduziert, mit dem externe Störungen aufgefangen werden. In der Tat treten interne Störungen in IT-Systemen häufiger auf, doch per Desaster Recovery lassen sie sich nur unzureichend beheben. Hier sind andere Lösungen gefragt.
Häufigkeit der verschiedenen Ausfallursachen: 95 Prozent aller IT-Ausfälle in Unternehmen sind auf lokale Ursachen zurückzuführen.
Foto: Libelle GmbH

Business Continuity wird häufig auf Desaster Recovery reduziert, mit dem externe Störungen aufgefangen werden. In der Tat treten interne Störungen in IT-Systemen häufiger auf, doch per Desaster Recovery lassen sie sich nur unzureichend beheben. Hier sind andere Lösungen gefragt.
von Ulrich Lenz (aktualisiert)
"Schadensereignisse", wie es im Versicherungsdeutsch ein wenig euphemistisch heißt, kommen meist so über die IT, wie man es nicht erwartet hat, und oft zeigt sich dabei, dass auch gute Vorkehrungen vergebens waren. So hatte sich im US-Staat New York erst mit dem verheerenden Wirbelsturm Sandy herausgestellt, dass die Idee, Notstromaggregate platzsparend im Keller aufzustellen, doch nicht so gut war. Fatal, wenn beispielweise die IT eines Buchungssystems auf den Strom dieser Anlage angewiesen ist.

Bei solchen Großereignissen rechnet wohl jeder Kunde und jeder Geschäftspartner damit, dass die Systeme nicht funktionieren. Bei den täglichen kleinen, auf ein Unternehmen begrenzten Schadensfällen jedoch ist mit einem solchen Verständnis kaum zu rechnen. Fällt beispielweise ein Online-Buchungssystem für Hotelreservierungen oder Flüge aus, so besteht der Schaden nicht nur in den Buchungen, die dann nicht vorgenommen werden können, sondern auch im möglichen Abwandern der Kunden auf andere Buchungsportale. Wenn die Systeme nicht ausreichend abgesichert sind, können auch bereits bestätigte Buchungen verloren gehen, betroffene Kunden werden dann möglicherweise Regressansprüche stellen. Die Kosten für derartige ungeplante Systemausfälle können enorm sein und in einer Welt, in der alles von der IT abhängt, durchaus die Existenz eines Unternehmens gefährden.

Automatische Einstellungen:
Auch unter Windows 8 arbeitet die Lösung Keriver 1-Klick Restore zuverlässig und schlägt die richtigen Einstellungen vor.
So gelingt ein Backup auch im laufenden Betrieb:
Die Keriver-Software setzt den VSS (Volume Shadow Service) der modernen Windows-System ein, um so alle Daten sichern zu können.
Ein etwas archaischer Anblick:
Damit ein Restore des Windows-Systems auch ohne das aktive Betriebssystem gelingen kann, wird bei Keriver 1-Klick der Grub-Bootloader installiert.

Wiederherstellung eines Snapshots mit Hilfe der Keriver-Software und Windows PE.
Viele Auswahlmöglichkeiten schon bei der Installation:
Die Lösung Cobian Backup stellt den Anwender vor die Wahl, ob er sie direkt als Dienst unter Windows installieren möchte.
Eine neue Aufgabe wird erstellt:
Das Anlegen neuer Sicherungsläufe erfolgt unter Cobian interaktiv, wobei der Anwender durch die verschiedenen Schritte geleitet wird.
Feinere Konfiguration bei den Systemeinstellungen:
In der Systemsteuerung von Cobian Backup kann ein Anwender auch sofort sehen, welche Dienste und Anwendungen aktiv sind.
Kommt mit fast allen Speichermedien zurecht:
Die Software Symantec Backup Exec 2012 unterstützt die verschiedensten Speichertechniken und stellt die entsprechenden Zugriffsmöglichkeiten bereit.
Die Lösung Backup Exec 2012 arbeitet im Hintergrund mit einer Microsoft SQL-Datenbank:
So kann das Berichtswesen direkt die notwendigen Antworten auf die klassischen Fragen des Tagesgeschäfts liefern.
Vielfalt der Medien:
Da die Backup-Exec-Software hauptsächlich im professionellen Umfeld zum Einsatz kommt, wird auch ein breites Spektrum an Speichermedien von der Software unterstützt.
Aufgeräumte Oberfläche auch im Browser:
Die Cloud-Lösung „Box“ stellt den verfügbaren Speicherplatz übersichtlich und leicht bedienbar zur Verfügung.
Ganz im Window-8-Look gehalten:
Bei der Lösung von „Box“ steht dem Anwender auch eine kostenlose Windows-App zur Verfügung, die sich nahtlos in die neue Oberfläche der Windows-8-Systeme einreiht.
Heute für Cloud-Speicher fast schon eine Selbstverständlichkeit:
Auch auf dem Tablet (hier unter Android 4.22) kann der Anwender bei der „Box“-Software auf seine Daten in der Cloud zugreifen.
Vollständige Backups von Android-Systemen ohne Root-Zugriff erstellen:
Dazu muss der Anwender aber auf jedem Fall in die Entwickleroptionen wechseln, die ab Android 4.2 standardmäßig nicht mehr aktiviert sind.

Wenn alle Vorbedingungen erfüllt sind, kann ein Backup des Android-Geräts vom Windows-Rechner aus mit Hilfe von Holo Backup durchgeführt werden.
Hier zeigt sich, dass die aktuellen Android-Version schon für ein Backup vorbereitet sind:
Der Bereich „Vollständige Sicherung“ – wie er ab Android 4.0 zur Verfügung steht – erfordert die Eingabe eines speziellen Passwortes.
Die Sicherung läuft:
Nach Eingabe des Passwortes auf dem mobilen System kann Holo Backup nun die Daten auf das Windows-Gerät transferieren. Die Anzeige auf dem Smartphone oder Tablet zeigt dabei, welche der Apps nun gerade gesichert wird.

Über die Notwendigkeit von Backups muss man heute nicht mehr diskutieren, die klassische Datensicherung mittels Backup und Restore mit Band oder Plattenspeicher ist die Grundlage eines jeden Desaster Recovery. Die fortschreitende Digitalisierung aller Prozesse hat allerdings die Anforderungen erheblich hinaufgeschraubt: Allein die Dauer eines Backup-Laufs und der meist noch zeitraubendere Recovery-Lauf setzten einer Verkürzung von RPO (Recovery Point Objective) und RTO (Recovery Time Objective) Grenzen. Für Unternehmen mit hochkritischen Prozessen, beispielsweise in der Fertigung, oder Unternehmen mit hohem Anspruch an die Verfügbarkeit, wie Notdienste, reichen Backup und Restore daher in der Regel nicht aus.

Update: Desaster-Recovery-Lösungen

Die genannten Grenzen lassen sich hinausschieben, wenn die Datensicherung kontinuierlich erfolgt, wenn also jede Veränderung im Datenbestand zeitnah (asynchron) oder zeitgleich (synchron) in einem zweiten Speichersystem erfasst wird.

Beim asynchronen Verfahren werden im primären, produktiven System Veränderungen von der Anwendung in den Datenbestand geschrieben, und die Verarbeitung geht verzögerungsfrei weiter. Mit einer je nach Lösungsansatz mehr oder weniger geringen zeitlichen Verzögerung wird die Änderung zwischengespeichert und dann in ein sekundäres Speichersystem geschrieben. Bei einem ungeplanten Ausfall des primären Systems stehen relativ aktuelle Daten im sekundären Speicher zur Verfügung. Den Reisenden, dessen Flugbuchung sich beim Störfall noch im Zwischenspeicher befand und der nun mit "ziemlich aktuellen Daten" konfrontiert wird, dürfte das jedoch nicht zufriedenstellen.

Die schlimmsten Backup-Irrtümer
Backup-Konzepte basieren häufig auf groben Irrtümern, speziell in puncto Compliance. Dieser Beitrag nennt die sieben schlimmsten Fehler.
Irrtum 1: Backup und Archivierung sind das Gleiche.
Backup und Archivierung dienen unterschiedlichen Zwecken: Ein Backup beugt dem Datenverlust vor, sorgt im Ernstfall für die schnelle Wiederherstellung eines Zustands von Daten und Applikationen zu einem definierten Zeitpunkt. Das Backup dient somit der Geschäftskontinuität. Die Archivierung stellt dagegen eine langfristige Speicherung von relevanten Geschäftsdokumenten sicher.
Irrtum 2: Backup ist freiwillig.
Betriebe, die ohne Backup-Konzepte agieren, leben gefährlich. Sie machen sich per se damit zwar nicht strafbar, weil die Datensicherungsspiegelung im deutschen Strafgesetzbuch nicht verankert ist. Daraus jedoch die Schlussfolgerung abzuleiten, dass ein Backup freiwillig sei und mit Compliance nichts zu tun habe, wäre fatal. Ein Unternehmen, das geschäftskritische Daten verliert, hat in der Regel schlechte Prognosen. Diesem Risiko sollte es sich daher nicht fahrlässig aussetzen.
Irrtum 3: Backup für persönliche Rechner ist verboten.
Jede Firma darf auch lokale Festplatten der Mitarbeiter-PCs und so genannte persönliche Laufwerke in die Datensicherung einbinden, wenn dort für den Arbeitgeber relevante Geschäftsdateien gespeichert werden. Wenn es sich um steuerlich relevante Dokumente handelt, ist es sogar die Pflicht des Unternehmens, auch die persönlichen Datenträger per Backup zu erfassen. Bereits seit 2002 haben die Finanzbehörden das Recht, auch auf lokale Festplatten zuzugreifen. Von diesen Regelungen sind jedoch Ordner ausgenommen, die deutlich als "privat" gekennzeichnet sind. Betriebe sollten also eine Richtlinie einführen, dass persönliche Dateien und Dokumente nur in einem entsprechend deutlich gekennzeichneten Verzeichnis gespeichert werden.
Irrtum 4: Gelöscht ist nicht gelöscht.
Das Backup speichert Systemzustände und damit Daten grundsätzlich nur für kurze Zeit. Je nach Backup-Konzept handelt es sich meist um einen Tag oder wenige Wochen, das ist jedem Geschäftsführer beziehungsweise verantwortlichem Unternehmer selbst überlassen. Die Faustregel beim Backup lautet: Was auf dem Quellsystem gelöscht wird, wird zeitnah auch im Backup gelöscht. Ausnahmen können bei Backup-Software und Backup-Appliances jedoch recht leicht konfiguriert werden.
Irrtum 5: Backup geht nur mit Tapes.
Würden Gesetze und sonstige Regelungen enge technische Vorgaben machen, würden sie in unseren Tagen schnell veralten. Backup-Tapes waren über Jahre das Standardmedium für Backups. Derzeit werden sie im Rahmen verschiedener Backup-Lösungen häufig durch eine Speicherung auf Festplatten in dedizierten Appliances abgelöst, ergänzt durch zusätzliche Spiegelungen in der Cloud. Ein wesentlicher technischer Vorteil ist die kürzere Backup-Zeit, weil die Appliance nach dem ersten Voll-Backup nur noch das "Delta", also den Unterschied zum vorangegangen Stadium, speichert.
Irrtum 6: Das Backup darf nicht in die Cloud.
Es kommt auf die Art der Daten an, um zu bestimmen, wo sie gespeichert werden dürfen. Grundsätzlich ist gegen die preislich attraktive Backup-Speicherung in der Cloud nichts einzuwenden. Allerdings ist bei einer Speicherung personenbezogener Backup-Daten vorgeschrieben, dass der Cloud-Betreiber die Informationen innerhalb der EU lagert. Die Einhaltung deutscher Gesetze und EU-Datenschutzrichtlinien muss zusätzlich vertraglich zwischen Auftraggeber und Auftragnehmer geregelt werden. Der Zugriff von nicht befugten Personen auf die Daten muss über Verschlüsselungen oder Zugriffssperren verhindert werden.
Irrtum 7: Backup-Outsourcing entbindet von der Haftung.
Wer einen Dienstleister mit dem Backup beauftragt, ist viele Sorgen los. Aber nicht alle. Anbieter mit einem Gesamtpaket aus Software, Hardware und Services sichern die Daten nicht nur, sondern prüfen auch ihre Vollständigkeit und Integrität. Auch in rechtlichen Belangen lässt sich viel an einen Dritten auslagern. Doch in welchem Umfang ein Dienstleister haftet, wenn durch ein mangelhaftes Backup ein Schaden entsteht, muss im Vertrag genau geregelt werden. Denn die übergeordnete Haftung liegt nach wie vor beim Geschäftsführer des Auftraggebers.

Für solche weitergehenden Anforderungen bieten synchrone Verfahren mehr Schutz. Veranlasst hier nämlich eine Anwendung eine Änderung des Datenbestandes - zum Beispiel eine Buchung -, so erhält sie erst dann die Rückmeldung einer erfolgreichen Änderung, wenn die Daten sowohl im primären als auch im sekundären Speicher abgelegt wurden. Dabei können durch längere Signallaufzeiten allerdings Verzögerungen bei der Verarbeitung auftreten, je nach Entfernung zum Standort des sekundären Speichers und der verwendeten Übertragungstechnologie. Deshalb wird bei solchen Übertagungsstrecken besonders auf kurze Latenzzeiten geachtet. Das ist besonders bei zeitkritischen Transaktionen wichtig.

Ausfallsichere System im Überblick

Wichtig ist natürlich neben der Sicherung der Daten auch die Methode zur Bereitstellung der gesicherten Daten auf einem funktionierenden System. Dafür bieten sich mehrere Alternativen an:

Cold-Stand-by-Systeme: Die benötigten Anwendungen und die gesicherten Datenbestände werden auf ein Reservesystem übertragen - eine Lösung, die allerdings zahlreiche Schwachpunkte aufweist: Es ist viel Administrationstätigkeit erforderlich, und es dauert meist auch einige Zeit, ehe der Betrieb fortgesetzt werden kann. Außerdem passen erfahrungsgemäß die Firmware-Release-Stände nicht zur aktuell benötigten Betriebssystemversion, und notwendige Anwendungs-Patches sind nicht nachgepflegt. Diese Lösungsvariante reicht in einer modernen, auf kontinuierliche Verfügbarkeit ausgerichteten IT-Landschaft nicht einmal mehr für unkritische Anwendungen.

Hot-Stand-by-System: Hier wird das Ersatzsystem ständig auf dem gleichen Release- und Firmware-Stand gehalten wie das primäre Produktionssystem. Tools helfen im Desaster-Fall, das Umschalten zumindest teilweise zu automatisieren. Dennoch muss man mit mehr oder weniger langen Ausfallspausen rechnen, sodass diese Lösung nur für unkritische Anwendungen infrage kommt.

Cluster und Virtualisierung: Eine Weiterentwicklung des Hot-Stand-by-Konzepts stellt der High Availability Cluster (HA-Cluster) dar. Hier ist die Überwachung des primären Produktionssystems in der Cluster-Management-Software untergebracht. Fällt die primäre Seite aus, findet ein Wechsel auf das sekundäre System statt. Allerdings werden dabei laufende Transaktionen unterbrochen, sie müssen im sekundären System bereinigt und dann neu aufgesetzt werden. Der aktuelle Hauptspeicherinhalt des primären Systems geht so komplett verloren. Ein sicherer Betrieb eines Cluster-Systems lässt sich durch ein sehr gut ausgebildetes und diszipliniertes Bedienpersonal verbessern.

Hybrid-Lösung zwischen Hot-Stand-by und Cluster: Mit der zunehmenden Verbreitung von Virtualisierungslösungen stehen auch neue Verfahren zur Erhöhung der Verfügbarkeit zur Verfügung. Da ein virtueller Computer nichts anderes ist als eine Ansammlung von Dateien in einem Speichersystem, kann diese virtuelle Maschine mit geeigneten Datensicherungsmethoden (mindestens asynchron) auf einem zweiten Standort gesichert werden. Fällt der primäre physische Rechner aus, werden durch die entsprechenden Management- und Überwachungs-Tools virtuelle Maschinen auf einem sekundären physischen Rechner neu gestartet. Allerdings kommt das System im sogenannten Crash-Status hoch, es muss also eine Bereinigung des Systemzustandes erfolgen, zum Beispiel die Überprüfung des Dateisystems oder auch ein komplettes Rollback der Datenbank - also alle Vorgänge, die nach dem Absturz eines Rechners und Wiederanschalten typischerweise ausgeführt werden. Das kann unter Umständen natürlich einige Zeit dauern.

Fehlertolerante Systeme: Die bisher betrachteten Methoden gehen von einem Störfall aus und wollen ihn überwinden, um den Betrieb möglichst schnell wieder aufzunehmen. Es gibt jedoch Anwendungen, die eine kontinuierliche Verfügbarkeit benötigen, beim Ausfall einer einzelnen Komponente also eine Wiederherstellungszeit von tatsächlich Null Sekunden erfordern, eine Betriebsunterbrechung also gar nicht erst zulassen. Das kann auch ein HA-Cluster nicht leisten; hier ist der Einsatz fehlertoleranter Systeme erforderlich. Sie gehen nicht mit den aufgetretenen Fehlern um, sondern sind so konstruiert, dass sie das Entstehen von Fehlern gleich ganz unterbinden. Dazu sind bei fehlertoleranten Systemen sämtliche Komponenten doppelt ausgelegt, und diese werden permanent synchronisiert. Fällt eine Komponente aus, so läuft die jeweilige Partnerkomponente einfach weiter. Mit dem Anspruch der Fehlertoleranz ist auch verbunden, dass Betriebssystem und Treiber rigorosen Kompatibilitäts- und Stabilitätstests unterzogen werden, um hier ebenfalls eine maximale Verfügbarkeit zu garantieren.

Update: kontinuierliche IT-Verfügbarkeit richtig planen

Obwohl Verfügbarkeit heute eine der zentralen Anforderungen an die IT ist, setzen viele Unternehmen Lösungen ein, die die dabei gesteckten Ziele nicht erreichen können. So stehen beispielsweise synchron arbeitende Desaster-Recovery-Lösungen mit aufwendigen Backup-Rechenzentren an entfernten Standorten hoch im Kurs. Betrachtet man jedoch die Häufigkeit der Ursachen für Systemausfälle, so zeigt sich, dass nicht die durch derartige Architekturen primär abgefangenen externen Störungsursachen, sondern vor allem Software- und Bedienungsfehler vorherrschen.

Folgekosten: Ein Systemausfall hat verschiedene negative Auswirkungen auf ein Unternehmen.
Foto: Libelle GmbH

In der Praxis sind etwa 95 Prozent der Ausfälle auf lokale Ursachen zurückzuführen, die mittels einer Desaster-Lösung, die ja nur externe Ursachen wie Feuer, Wasser oder Stromausfall abdeckt, überhaupt nicht verhindert werden können. Ein simpler Hardwarefehler - beispielsweise der Ausfall eines Speicherbausteins oder einer CPU - führt dabei zu einem Desaster-Fall, das heißt zum kompletten Umschalten des Betriebes auf das sekundäre System mit entsprechendem Daten-Restore. Die Folgen sind dann beispielweise Datenverlust und eine Betriebsunterbrechung mit entsprechend hohen Kosten.

Solche Folgeprobleme treten bei fehlertoleranten Systemen nicht auf. In dieser Architektur werden Ausfälle durch Hardwarefehler schon im Entstehen abgefangen. Außerdem sind fehlertolerante Systeme in der Bedienung wesentlich einfacher, insbesondere im Vergleich zu Cluster-Lösungen, und vermindern auf diese Weise das Risiko von Administrator- und Anwenderfehlern - im Alltag des Rechenzentrums immer noch eine der Hauptfehlerursachen. Berücksichtigt man die laufenden Kosten eines Systems inklusive des Betreuungsaufwands, so sind fehlertolerante Systeme auch wirtschaftlich vorteilhaft. Die Kombination aus fehlertoleranten Servern und geeigneten Datensicherungslösungen stellt daher eine sehr effiziente Möglichkeit zur Vorsorge gegen allfällige Schadensereignisse dar. Und je nach geogrfhischer Lage sollte man auch dieses System vielleicht nicht gerade im Keller aufstellen.
(hal / rb)