Melden Sie sich hier an, um auf Kommentare und die Whitepaper-Datenbank zugreifen zu können.

Kein Log-In? Dann jetzt kostenlos registrieren.

Falls Sie Ihr Passwort vergessen haben, können Sie es hier per E-Mail anfordern.

Der Zugang zur Reseller Only!-Community ist registrierten Fachhändlern, Systemhäusern und Dienstleistern vorbehalten.

Registrieren Sie sich hier, um Zugang zu diesem Bereich zu beantragen. Die Freigabe Ihres Zugangs erfolgt nach Prüfung Ihrer Anmeldung durch die Redaktion.

26.10.2001 - 

Clustering/Was beim Aufbau von Rechnerverbänden unter Windows 2000 zu beachten ist

Windows-Cluster profitieren vom E-Business

Mit der Hinwendung der Unternehmen zum E-Business steigen die Anforderungen an stets verfügbare IT-Systeme. Downtimes von insgesamt nur wenigen Stunden pro Jahr können sich in dieser Konstellation bereits als geschäftskritisch erweisen. Grund genug, die gewachsenen Optionen für geclusterte Windows-Server unter die Lupe zu nehmen. Von Andreas Essing*

Vor der Erläuterung der Cluster-Möglichkeiten stellt sich die Frage nach der Definition des Begriffs Hochverfügbarkeit. Eine gute Antwort liefert das US-amerikanische Marktforschungsunternehmen IDC. Es unterscheidet vier Stufen der Verfügbarkeit (Availability Levels): AL4, AL3, AL2 und AL1.

AL4 als höchste Stufe steht für Hochverfügbarkeit bis zum Endgerät. Es kommt also durch die redundante Auslegung aller am Geschäftsprozess beteiligten Komponenten und Funktionen zu keiner Einschränkung der Arbeitsabläufe. Alt4 ist also gleichbedeutend mit einer garantierten Ende-zu-Ende-Verfügbarkeit ohne Performance-Verlust.

Bei Stufe AL3 bleiben die Benutzer aufgrund der durchgehenden Redundanz von Komponenten und Funktionen ebenfalls online, allerdings mit der Einschränkung, durch die Umschaltung Leistungseinbußen hinnehmen zu müssen. Denn in diesem Fall wird toleriert, dass einzelne Transaktionen unterbrochen und erneut aufgesetzt werden.

Im Verfügbarkeits-Level AL2 wird trotz durchgehender Komponenten und Funktionsredundanz im Problemfall ein Abbruch des kompletten Geschäftsprozesses toleriert, gefolgt von einer Neuanmeldung des Benutzers am System und einem erneuten manuellen Start aller am Geschäftsprozess beteiligten Transaktionen.

Bei der niedrigsten Stufe AL1 schließlich darf ein unkontrollierter Stopp des Geschäftsprozesses vorkommen. Das Augenmerk liegt lediglich auf der Datenintegrität. Die wird in diesem Fall durch Recovery in Form von Spiegelung oder Raid (Redundant Array of Independent Disks), gestützt durch entsprechende Log-Files, gewährleistet.

Verfügbarkeit als MessgrößeZusätzlich bringt IDC den Begriff der Zuverlässigkeit ins Spiel. Gemeint sind damit die tolerierte Anzahl und Länge der Komponenten- und Funktionsausfälle. In der Regel wird diese Zuverlässigkeit der Systeme in einer Gesamtverfügbarkeit des Geschäftsprozesses pro Jahr wiedergegeben, beispielsweise 99,99 Prozent. Solche über alle Komponenten und Funktionen hochgerechneten Messgrößen lassen sich dann auch als notwendige Service-Levels gegenüber IT-Dienstleistern oder Service-Providern heranziehen.

Die Absicherung kompletter Geschäftsprozesse, auf die sich die Verfügbarkeitsstufen von IDC beziehen, ist wirtschaftlich wie technologisch allerdings kaum durchzuhalten. Zumal die Hersteller, die von der Hochverfügbarkeit kompletter Geschäftsabläufe sprechen, mit ihrer Technologie meist nur die Server-Systeme adressieren.

Das ist bei Microsoft nicht anders. Der Hersteller positioniert zurzeit Windows 2000 als eine Plattform, mit der mittels Clustering die Verfügbarkeitsstufe AL3 und damit in der Summe eine Systemzuverlässigkeit von 99,999 Prozent erreichbar ist. Gemeint ist aber nicht wie bei IDC die Zuverlässigkeit des kompletten Geschäftsprozesses mit allen daran beteiligten Einheiten, sondern nur die der Server-Plattform. Das Marketing-Versprechen "99,999 Prozent" ist damit kaum mehr als graue Theorie - ein Wert, der in der Praxis ohne zusätzliche technische und organisatorische Maßnahmen nur schwer erreichbar ist. Zudem müsste zum Idealbild einer durchgehenden, gesteuerten Redundanz ein ebenso "durchgehend" organisierter Rechenzentrumsbetrieb dahinter stehen, um das hohe Ziel 99,999 Prozent in der Praxis umsetzen zu können.

Dennoch ist das Clustering von Windows-2000-Servern ein maßgeblicher Hebel, bezogen auf den gesamten Geschäftsprozess zumindest eine Verfügbarkeit von 99,99 Prozent, also AL2, zu erreichen. Immerhin sind die Server das pulsierende Herz der Geschäftsprozesse. Um dieses immer noch hohe Ziel zu erreichen, gilt es im Vorfeld einige Randbedingungen zu analysieren und zu glätten. Folgende Fragen sollten sich die Entscheider in diesem Zusammenhang stellen:

- Die Single Points of Failure sind möglichst vollständig auszuschließen: Ist die Stromversorgung mit einer USV (Unterbrechungsfreien Stromversorgung) abgesichert, die USV-Anlage selbst redundant ausgelegt? Sind die Basisdienste im Windows-2000-internen Active Directory wie WINS, DHCP (Dynamic Host Control Protocol), DNS (Domain Name Services) und Active Directory Domain Controller mindestens doppelt im Netz vorhanden? Sind die entfernten Standorte über redundante Fallback-Leitungen mit dem IT-Rechenzentrum verbunden?

- Das personelle Reaktionsniveau muss stimmen: Sind die Administratoren und der Benutzer-Helpdesk ausreichend geschult und auf den Betrieb vorbereitet? Wenn nicht, werden die Administratoren nicht professionell mit Ernstfällen umgehen können. Mit regelmäßigen "Feuerwehrübungen" müssen auch während des IT-Betriebs Recovery-Maßnahmen immer wieder geübt und dokumentiert werden, damit sie bei Bedarf schnell und gezielt abrufbar sind. Nur so kann der Gefahr entgegengewirkt werden, dass aus dem Ziel, Systemzuverlässigkeit von 99,99 Prozent, lasche 99,9 Pro-zent werden. Für diese Trainingszwecke empfiehlt sich ein produktionsnahes Testfeld.

- Das Server-System ist wirksam zu überwachen: Sind alle erforderlichen Überwachungs- und Eskalationsprozeduren verifiziert, dokumentiert und in einem Log-Buch protokolliert? Wurde dabei auch die Festschreibung von Grenzwerten wie für CPU- und I/O-Auslastung nicht vergessen? Werden die Event-Logs mindestens einmal täglich überwacht? Nur so wird beispielsweise erkannt, ob die Backup-Software noch Fehlereinträge ins Log-Buch schreibt. Inwieweit wird der Nutzungsgrad der Applikations-Server steigen? Nur so können Systemkapazitäten frühzeitig und hinreichend eingeplant und eingesetzt werden, um gefährlichen Ablaufengpässen vorzubeugen. Ist das Sammeln von Überwachungs- und Statistikinformationen ebenso wie ihre Dokumentation in Reports über leistungsfähige Tools weitgehend automatisiert? Das birgt für den Anwender Geschwindigkeits- und Wirtschaftlichkeitsvorteile. Ist der Einsatz leistungsfähiger System-Management-Tools hinreichend bedacht worden?

- Existieren für neue Service Packs, Softwarestände und Hotfixes festgeschriebene Test- und Freigabeprozeduren, die vorab in einer definierten Testumgebung durchlaufen werden? Erst nach erfolgreichem Test sollte das Update für die Produktion freigegeben werden.

Ist das Unternehmen im Vorfeld des Server-Clustering unter Windows 2000 mit Verfügbarkeitsproblemen bei den Geschäftsprozessen konfrontiert, müssen natürlich die Gründe dafür auf System-, infrastruktureller und organisatorischer Ebene analysiert und abgestellt werden. Wie wichtig der organisatorische Part für einen hohen Zuverlässigkeitsgrad der Geschäftsprozesse ist, macht die Gartner-Group-Studie "Making Smart Investments to reduce unplanned Downtime" deutlich. Sie kommt zum Ergebnis, dass bei 80 Prozent aller Ausfälle Benutzer- oder Administratorfehler die Ursache sind. Das heißt im Umkehrschluss: Mit planvollen und schnellen Reaktionen auf Fehlerereignisse winkt dem Unternehmen der größte Return on Investment (ROI) bei höchstmöglicher Verfügbarkeit des Gesamtsystems. Erst wenn alle Randbedingungen abgearbeitet und im Sinne eines Best-Practice-Ansatzes umgesetzt sind, steht das eigentliche Clustering der Windows-2000-Server-Systeme an.

Microsoft Cluster Server ergänzt durch Management-SystemMicrosoft hatte schon mit Windows NT Enterprise Edition die Anforderungen an eine höhere Systemverfügbarkeit mit der Integration entsprechender Technologien aufgegriffen. Der bekannteste Ansatz dafür ist der Microsoft Cluster Server, kurz: MSCS. Er wurde im Lauf der Jahre durch Network Load Balancing, ein Zukauf von Convoy, und dem Application Center Server ergänzt. Heute, unter Windows 2000, wird das Clustering mit den vorgenannten Technologien innerhalb des Advanced Server (maximal zwei Knoten) und Data Center Server (maximal vier Knoten) abgewickelt. Darüber hinaus sind mit der neuen Betriebssystem-Version mit Blick auf das Clustering nur marginale Erweiterungen hinzugekommen. Um Clustering unter Windows 2000 in Szene zu setzen, muss für jeden Cluster-Knoten eine Advanced-Server-Lizenz beziehungsweise Data-Center-Server-Lizenz erworben werden. Die Erste gibt es im freien Markt, die Zweite nur bei Microsoft oder von Microsoft-zertifizierten Herstellern.

Die enge Kommunikation der am Cluster beteiligten Windows-2000-Server wird in der Regel über eine direkte separate LAN-Kopplung umgesetzt. Über diesen Weg werden alle für die Aufrechterhaltung des Server-Betriebs notwendigen Daten ausgetauscht, einschließlich der Lebendmeldungen (Heartbeat Signals). Diese Lebendmeldungen werden im Sekundenbereich (alle 1,2 Sekunden) als kurze Tickets ausgetauscht. Über sie erfahren die beteiligten Knoten den aktuellen Status des Gesamtsystems. Fällt ein Knoten innerhalb des Clusters aus, wird der Ausfall vom Partnerknoten erkannt, der dann die notwendigen Failover-Maßnahmen einleitet.

Klare Festplattenzuordnung muss seinFür die an sich eigenständig konfigurierten und arbeitenden Windows-2000-Server muss dazu zusätzlich der Microsoft Cluster Service (MSCS) installiert werden. Er besteht aus mehreren Modulen, um das Management des Gesamtsystems übernehmen zu können. Voraussetzung für dieses umfassende Management der Cluster-Knoten ist, dass Festplattensysteme immer nur einem bestimmten Knoten zugewiesen sind (Shared-Nothing-Architecture). Im Fehlerfall können diese Plattensysteme dann eindeutig einem Ausweichknoten zugeordnet und die entsprechenden Dienste und Applikationen übernommen werden (Failover).

Auf dieser eindeutigen Zuordnungsbasis können nun Anwendungsdienste wie Datei-, Drucker, E-Mail- oder Applikations-Server aufsetzen und ihre Dienste freigeben. Damit der Anwender im Fehlerfall nicht mehr als eine kleine Unterbrechung bemerkt, wird beim Clustering unter Windows 2000 über virtuelle Server mit eigenen IP-Adressen gearbeitet. Der virtuelle Server kann so bei Ausfall nahtlos in die Fußstapfen des realen Servers treten. Die Tatsache, dass Windows 2000 erlaubt, beide IP-Adressen parallel zu führen und zu binden, macht das möglich. Dieser Wechsel passiert im Hintergrund und zieht für den Benutzer keine Änderung des Server-Namen und der IP-Adresse nach sich. Der virtuelle Server (weitere Knoten im Cluster) startet dann die Programme.

Die Dauer dieses Failover ist von den Diensten und Applikationen abhängig, die davon betroffen sind. Bei Datei- und Druckdiensten bewegt sich der Failover im Sekundenbereich. Anders beispielsweise bei Microsoft Exchange 2000: Hier kann er abhängig von der Last bis zu zehn Minuten dauern. Speziell für Exchange 2000 kommt eine weitere Einschränkung hinzu: Derzeit werden mit dem Service Pack 1 maximal 1500 Benutzer pro Cluster unterstützt. Mit diesen beiden Einschränkungen wird Exchange heute nur äußerst selten, in etwa ein bis zwei Prozent der Fälle, in Cluster-Umgebungen eingesetzt.

Die bisher beschriebenen Funktionen reichen aber nicht aus, um den Geschäftsprozess über einen Cluster abzusichern. Dazu gilt es zusätzlich die Datenhaltung und -Sicherung zu beachten. Der Anwender hat dazu zwei Alternativen: Einsatz lokaler Plattenlaufwerke oder Aufbau eines Storage Area Network (SAN) für die Spiegelung der Daten zwischen Rechenzentren.

SAN oder lokale Platten?Bei der ersten, kostengünstigeren Alternative - lokale Plattenlaufwerke - sind die Daten, die nur an dieser Stelle gehalten werden, selbst bei Einsatz von Raid nicht gegen Feuer- und Wasserschäden gesichert. Deshalb lohnt es sich für die Unternehmen in der Regel, die teure Alternative, den Einsatz von SAN-Technologien, ins Auge zu fassen, um auch eine permanente Datenhaltung und -sicherheit zu gewährleisten. Denn nur der SAN-Ansatz erschließt ein Server-unabhängiges Datenhaltungskonzept. Die Vorteile dieses Ansatzes sind:

- Dieselben Daten sind unterschiedlichen Anwendungen auf verschiedenen Servern zuweisbar.

- Die Daten sind redundant an verschiedenen Orten gelagert.

- Es gibt nur ein koordiniertes Backup-Szenario statt vieler getrennt ablaufender Backups mit vielen Einzelanpassungen.

- Das gesamte Backup-System ist weit besser skalier- und steuerbar. Dadurch können auch Recovery-Prozesse schneller und verlässlicher durchgeführt werden.

Neben dem eigentlichen Clustering unter Windows 2000 kann auch Network Load Balancing, beispielsweise zwischen WebServern unter Windows 2000 - dem Cluster im Sinne einer Two-Tier-Architektur vorangestellt - die Verfügbarkeit erhöhen. Einerseits ermöglicht es diese Konstellation, nur die für die Ausgabe notwendigen Anwendungen und Funktionen auf den Web-Servern zu belassen. Alle anderen Applikationen und Dienste werden hochverfügbar innerhalb des Windows-2000-Clusters installiert. Andererseits führt Network Load Balancing mit seiner Fähigkeit, bei Ausfall eines Web-Servers den Netzverkehr über die verbleibenden Web-Server zu lenken, zu einer höheren Verfügbarkeit der gesamten Server-Architektur.

Network Load Balancing erhöht VerfügbarkeitMicrosofts Network Load Balancing Service (NLBS), hervorgegangen aus dem Ex-Convoy-Produkt, ist dafür der Hebel. NLBS erlaubt, neben dem Umschalten des Netzverkehrs auf die verbleibenden Server, Netzlasten gleichmäßig - statisch wie dynamisch - zwischen den Servern zu verteilen. Dadurch kommt es im Frontend zu keinen Performance-Engpässen, die sich ansonsten schnell auf den Server-Cluster im Backend auswirken könnten.

Für die Verteilung der Software auf den Network-Load-Balancing-Verbund sowie deren Management kommt der Microsoft Application Center Server zum Einsatz. Er stellt unter anderem sicher, dass Änderungen ad hoc auf alle beteiligten Anwendungen und Komponenten verteilt und nachvollzogen werden.

*Andreas Essing ist Senior Consultant bei Siemens Business Services (SBS) in München.

Abb.1: Verfügbarkeit + Kosten

Die Kosten für ein hochverfügbares IT-System steigen mit den Anforderungen an die tolerierbare Ausfallzeit. Quelle: Klagges

Abb.2: Microsoft-Cluster

Aufbau eines Windows-Cluster mit Microsoft Cluster Service (MSCS) und zwei Servern. Quelle: SBS