Melden Sie sich hier an, um auf Kommentare und die Whitepaper-Datenbank zugreifen zu können.

Kein Log-In? Dann jetzt kostenlos registrieren.

Falls Sie Ihr Passwort vergessen haben, können Sie es hier per E-Mail anfordern.

Der Zugang zur Reseller Only!-Community ist registrierten Fachhändlern, Systemhäusern und Dienstleistern vorbehalten.

Registrieren Sie sich hier, um Zugang zu diesem Bereich zu beantragen. Die Freigabe Ihres Zugangs erfolgt nach Prüfung Ihrer Anmeldung durch die Redaktion.

07.08.1992 - 

Workstation-Cluster noch mit engen Grenzen

Facts und Fantasy klaffen bei Parallelrechnern auseinander

*Professor Dr. Hans-Werner Meuer ist Direktor des Rechenzentrums der Universität Mannheim, Dr. Erich Strohmaier ist wissenschaftlicher Mitarbeiter am Rechenzentrum der Universität Mannheim in einem von Siemens Nixdorf finanzierten Projekt zur Leistungsmessung von Supercomputern

Der Bereich der Parallelrechner wird nicht nur durch ein Nebeneinander sehr verschiedener Konzepte und Architekturen geprägt, sondern in letzter Zeit gerade auch durch teilweise sehr vollmundige Versprechungen der involvierten Firmen, in nächster Zeit Tflops-Rechner bauen und liefern zu können. Diese werden zur Lösung der Grand Challenges [1] zusammen mit Fortschritten in theoretisch-analytischen Methoden und Algorithmik eine wichtige Rolle spielen.

Leider geht bei den Versprechungen mancher Firmen die realistische Einschätzung, was wirklich Stand der Technik ist und was erst in einigen Jahren erreichbar sein wird, allzu leicht verloren. Erschwert wird dies derzeit zusätzlich durch einen Generationswechsel der angebotenen Rechner, der trotz vielfältiger Ankündigungen keineswegs abgeschlossen ist. Im folgenden soll deshalb dargestellt werden, was in diesem sehr dynamischen und interessanten Markt nach den Supercomputer '92-Tagen im Juni in Mannheim [2] als Fact und was als Fantasy zu gelten hat.

Betrachtet man den Parallelrechner-Markt genauer, auf dem zur Zeit rund zwei Dutzend Computerbauer ihr Glück versuchen, so erkennt man schnell , daß es sich im wesentlichen um ein Nebeneinander von zwei Entwicklungslinien handelt: zum einen die Multi-Prozessor-(MP)-Vektorsysteme mit typischerweise 8 bis 16 sehr

leistungsfähigen Einzelprozessoren, zum anderen die Massiv-Parallel-Processing-(MPP)-Systeme, mit typischerweise 16 bis (theoretisch) einigen tausend, zum Teil handelsüblichen Prozessoren, wie sie auch in Workstations Verwendung finden.

Auf dem Markt der MP-Vektorsysteme findet man ebenso wie bei den herkömmlichen Mainframes die großen alten Hersteller der Branche. Allen voran natürlich Cray Research mit ihrem neuen Topmodell YMP16 C90[3], gefolgt von der Troika der japanischen Hersteller Fujitsu/Hitachi/NEC, von denen allein Fujitsu dank ihres europäischen Partners Siemens-Nixdorf außerhalb Japans einen nennenswerten Marktanteil erreicht hat. Auch IBM versucht seit Jahren, mit den Vector-Facility-

(VF-)Zusätze zu ihren High-End-Mainframes in diesem Markt mitzumischen. Schließlich sind die hier angebotenen Maschinen insgesamt als High-End-Modelle der traditionellen Mainframe-Welt anzusehen.

Wichtigstes gemeinsames Merkmal neben dem Einsatz von Vektorprozessoren ist in dieser Rechnerklasse der zentrale Hauptspeicher, auf den alle CPUs zugreifen. Diese Bauweise begrenzt letztendlich wegen der zunehmenden Zugriffskonflikte die Zahl der CPUs, die zum Einsatz gebracht werden können. Cray Research beherrscht die hierbei nötige Technologie mit Sicherheit am besten und kann daher in ihrem neuen Spitzenmodell bis zu 16 CPUs an den zentralen Speicher koppeln. Die Japaner bieten bisher bis maximal vier CPUs an, die sie entsprechend leistungsfähig auslegen, um insgesamt mit Cray mithalten zu können. Während die C90 bei 4 Nanosekunden Zykluszeit (250 MHz Taktfrequenz) und doppelt ausgelegten Rechenpipelines pro Prozessor 1 Gfolp Spitzenleistung erreicht, bieten die Japaner bei bis zu vierfach ausgelegten paarweise vorhandenen Rechenpipelines und einer typische Zykluszeit von 2 Nanosekunden bis zu 8 Gflops Leistung pro Einzelprozessor [4].

Mpp-Systeme machen Vektormainframes Konkurrenz

Wegen des Technologievorsprungs sowohl beim Speicherzugriff als auch bei der Parallelisierung hat Cray Research, sobald es um tatsächlich erzielte Leistungen geht, im breiten Feld der Anwendungen die japanischen Konkurrenten aber keineswegs zu fürchten. Die in Tabelle 1 gegenübergestellten Spitzenmodelle dieser vier Hersteller können in etwa als gleichwertig gelten. Das derzeit leichte Hinterherhinken von Fujitsu/ SNI dürfte durch eine Neuankündigung im nächsten halben Jahr wettgemacht werden (siehe Tabelle 1).

Weitere Konkurrenten in diesem Bereich der MP-Vektorrechner sind Convex mit der C3800 und IBM mit der ES9000/VF. Mit ähnlichen Architekturen wie Cray und Japan Inc. adressieren sie allerdings eine andere Käuferschicht und bieten Systeme mit einer um Größenordnungen geringeren Leistung an. Während eine Einschätzung des Markterfolges der VF-Zusätze schwerfällt (IBM publiziert hier keinerlei Daten und die Durchdringung des Marktes ist nach unseren Recherchen eher enttäuschend), ist der Erfolg von Convex als letztem Überlebenden der Mini-Supercomputer-Hersteller hervorzuheben. Auch am Markt der Höchstleistungsrechner ist die Mikro-Prozessor-Revolution der letzten fünf Jahre nicht vorbeigegangen. Hier erwächst den MP-Vektor-Mainframes seit einigen Jahren immer stärkere Konkurrenz durch MPP-Systeme, die auf leistungsfähigen Mikro-Prozessoren basieren. Diese Rechner sind in den größten Ausbaustufen bis zu mehreren tausend Prozessoren erweiterbar, aber auch als Einstiegs(droge) mit 16 Prozessoren (in einigen Fällen sogar noch weniger) erhältlich. Diese Minimalsysteme können gestandenen Vektorprozessoren zwar leistungsmäßig nicht das Wasser reichen, bieten aber einen sehr preisgünstigen Start in die neue Rechnergattung. Sind erst mal genug Erfahrungen gesammelt und ist der Geschmack auf mehr geweckt, kann jederzeit problemlos auf größere Modelle nachgerüstet werden.

Neben dieser großen Spanne an Skalierbarkeit und dem Einsatz von Prozessoren auf dem Workstation-Niveau ist das Fehlen eines zentralen Speichers wichtigstes gemeinsames Merkmal dieser Rechner. Ist der verteilte Speicher (distributed memory) einerseits Voraussetzung für die gute Skalierbarkeit dieser Systeme, so folgen hieraus andererseits die heute erst ansatzweise gelösten Probleme bei ihrer Programmierung. Sind die Daten auf die lokalen Speicher der Prozessoren verteilt, müssen sie bei Bedarf ausgetauscht werden können. Bei den bisherigen Systemen muß dies der Programmierer durch die Verwendung von "Send-and-receive"-Befehlen - sogenannten Message-passing-Primitiven - selbst veranlassen.

Nach Ansicht von Praktikern wie Helmut Grund [5] von der GMD ist dabei eines der Hauptprobleme die fehlende Möglichkeit, Programme von Rechnern mit gemeinsamem Speicher (shared memory) problemlos auf diese Distributed-Memory-Systeme portieren zu können. Weil die Programme im wesentlichen neu entwickelt werden müssen, ist der Anfangsaufwand sehr hoch und damit die Akzeptanz dieser Systeme bei vielen Benutzern sehr gering. Daher hat sich mittlerweile die Ansicht durchgesetzt, daß Parallelrechner in Zukunft dem Benutzer die Sicht eines scheinbar gemeinsamen Speichers (virtual shared memory - VSM) werden bieten müssen, um "programmierbar" zu sein.

Ein solches VSM erlaubt den Benutzern, relativ schnell Programme auf ihre Parallelrechner zu portieren, was ihre Akzeptanz ganz entscheidend erhöht. Eine ganz andere Frage ist natürlich, wie effizient ein solches VSM implementiert werden kann. Kritiker des VSM führen an, daß die Leistungsoptimierung eines der Probleme sein wird. Immerhin hat auch Intel eine VSM-Implementierung auf der Paragon angekündigt, und auch bei Ncube finden erste Überlegungen in diese Richtung statt. Parsytec hingegen scheint der letzte Hersteller zu sein, der voll und ausschließlich auf Message-passing setzt.

Grund für diese Entwicklung ist die Ankündigung der CM5 [6] von Thinking Machines (TMC) im Herbst letzten Jahres, der Intel mit der Ankündigung des Paragon-Systems [7] kurz darauf folgte.

Die dadurch ausgelöste Erwartungshaltung potentieller Kunden hat mittlerweile alle Konkurrenten zu entsprechenden Ankündigungs-Schritten veranlaßt. So hat nach den Ankündigungen von Cray Research [8], Convex [9] und IBM [10] zuletzt auch Ncube seine Pläne [3] offengelegt. Während TMC mittlerweile zumindest den Skalar-Teil ihres Rechners liefern kann - die Probleme mit den Vektoreinheiten sind nach wie vor nicht ausgeräumt -, wird man von Intel die Paragon-Hardware wahrscheinlich erst Ende 1992 begutachten können. Die anderen Hersteller waren bei ihren Ankündigungen realistischer und haben diese erst für 93/94 angekündigt.

Den verbliebenen deutschen Mitspieler Parsytec [11], dessen neue GC-Serie auch schon einige Zeit überfällig ist, hat die durch Thomson/Inmos verursachte Verzögerung des T9000-Transputers ohne eigenes Verschulden in die gleiche Warteschlange eingereiht.

Bei einem Überblick über am Markt erhältliche Systeme kommt man derzeit aber nicht umhin, die von diesen Firmen als Übergangslösungen angebotenen Systeme miteinzubeziehen. Daneben sind natürlich auch die noch nicht erhältlichen, jedoch bereits bestellbaren Systeme von Interesse (siehe Tabelle 2).

Auf die alte CM2 von TMC wollen wir nicht mehr eingehen, da demnächst die komplette Auslieferung der CM5-Hardware zu erwarten ist. Der ehemalige Hardware-SIMD-Protagonist hat mit seiner neuen Architektur die Abkehr von der reinen SIMD-Philosophie eingeläutet und mit der CM5 einen wesentlich flexibleren Rechner vorgestellt. Die mehreren tausend Knoten dieses Systems können nicht nur (wie bisher) im datenparallelen Modus mit Hilfe von Array-Befehlen programmiert werden, sondern lassen sich auch durch MessagePassing steuern. Da jeder Sparc-Prozessor dabei vier Vektor-Koprozessoren kontrolliert (zusammen 128 Mflops), ist aber auch die CM5 sicher sehr gut für große Probleme mit hohem Grad an Datenparallelität geeignet.

SIMD-Rechner sind keine Alternative zu MIMD-Systeme

Ein reiner Hardware-SIMD-Rechner wird derzeit nur noch von Maspar [12] (MP1) zusammen mit DEC (MP12000) vertrieben. Dieser erreicht mit seinen bis zu 16384 4-Bit-Prozessoren eine theoretische, numerische Spitzenleistung von (nur) 580 Mflops. Von der überwiegenden Zahl der Experten werden solche SIMD-Rechner jedoch nicht mehr als Alternative zu MIMD-Rechnern, wie beispielsweise Intel oder Ncube, eingeschätzt. Für eine Unterklasse von Anwendungen wie etwa Bildverarbeitung könnten sie auch in Zukunft noch eine Rolle spielen. In einem derart hart umkämpften Markt ist es aber fraglich, ob Nischen für solche Spezialrechner existieren.

Intel hat es in den letzten Jahren verstanden, aus der hohen theoretischen Spitzenleistung ihres 860-Chips (60 Mflops bei 40 MHz) werbewirksames Kapital zu schlagen. Die tatsächlich mit Fortran-Compilern erreichbaren Leistungen liegen aber eher unterhalb von 10 Mflops; dies ist bisher aber immerhin fast noch eine Größenordnung mehr als die derzeitigen Prozessoren der direkten Konkurrenten Ncube (Ncube2s ca. 3,6 Mflops) und Parsytec (T800 ca. 1,5 Mflops). Diese machen die geringere Einzelleistung durch eine größere mögliche Anzahl von Prozessoren aber wieder wett (iPSC/860: 128, Ncube2 und Parsytec mehr als tausend). Gemeinsam ist diesen drei Konkurrenten die Programmierung durch Message Passing. Bei allen fallen dabei die bei Benutzung von Fortran unangenehm hohen zeitlichen Kosten für das Starten einer Nachricht auf (Start-up time). Dies verlangt besondere Sorgfalt des Programmierers bei der Organisation des Datenaustausches (lieber wenige lange Nachrichten als viele kurze). Allzu große Effizienz kann daher bei einer nachträglichen Implementierung von VSM über Software nicht erwartet werden.

Während bei Intel und Parsytec die Nachfolgemodelle bereits zu bestellen sind, aber noch nicht geliefert werden können, hat Ncube zwar die ambitionierten Pläne für ihren Ncube3 mittlerweile vorgestellt, verkauft aber nur das, was sie auch liefern können. Die Prozessoren dieser nächsten Generation von Parallelrechnern werden leistungsmäßig wieder zu dem oberen Bereich der Workstations aufschließen

(860XP: 75 Mflops bei 50 MHz, T9000: 25 Mflops). Aufgrund der Packungs- und Fertigungstechnologie wird die Zahl der Prozessoren (wie auch bei der CM5) durch die Verfügbarkeit von Aufstellfläche und Geld begrenzt.

Einen Schritt in die Parallelverarbeitung der Zukunft will die noch relativ unbekannte Kendall Square Research, ein Newcomer aus den USA, schon jetzt tun. Sie hatte bei der Entwicklung seines jetzt im Juni 1992 vorgestellten Rechners KSR113 von Anfang an die Implementierung eines VSM und die Realisierung durch spezielle Hardware im Auge. Dabei wird der gesamte Hauptspeicher des Rechners, der bis auf 1088 proprietäre Prozessoren (20 MHz: 40 Mflops) aufgerüstet werden kann, als Cache verwaltet. Cache misses, die zwischen verschiedenen Prozessoren auftreten können, werden von der Hardware erkannt und behandelt.

Erste kleinere Modelle dieses Rechners sind ausgeliefert, so daß in naher Zukunft Erfahrungen mit diesem Konzept vorliegen werden. Wegen des hierarchischen Aufbaus des Verbindungsnetzwerks - 32 Prozessoren bilden je eine Gruppe, die untereinander wieder verbunden sind - werden dabei die Erfahrungen auf größeren Anlagen (> 128) von besonderem Interesse sein, da Verfechter des reinen Message Passing den Sinn von VSM für hohe Prozessorzahlen bezweifeln. Eine weitere Besonderheit dieses Ansatzes ist der Effekt, daß Daten während des Programmablaufs dynamisch ihren Speicherplatz wechseln können. Für adaptive Programme (zum Beispiel dynamische und selektive Gitterverfeinerung) verspricht dies theoretisch Vorteile, so daß man auch hier gespannt sein darf, ob dies auch in der Praxis der Fall sein wird.

Als neue Möglichkeit zur Erforschung von Parallelverarbeitung finden derzeit Workstation-Netze zunehmend Interesse. Als absolute Low-cost-Einstiegslösung (bei vorhandener Hardware) oder als auf Durchsatz optimierter Computer-Server ist dieses Konzept sicher sinnvoll. Durch die begrenzte Zuverlässigkeit bei räumlich verteilter Aufstellung, geringer Kommunikationsbandbreite und hohem Kommunikations- Overhead sind diesem Konzept heute in echtem Parallelbetrieb sehr enge Grenzen gesteckt. Die Zahl der gekoppelten Workstations übersteigt in der Praxis kaum fünf bis sechs. Einige Universitäten planen derzeit auch, ihre Universalrechner durch solche (homogenen) Workstation-Cluster zu ersetzen. Obwohl dieses Konzept auf verteiltem Speicher beruht (VSM ist als Public-domain-Software erhältlich), steht es kommerziell eher in Konkurrenz zu den auf dem Markt auftauchenden Multi-CPU-Servern, wie zum Beispiel die RM600 von Siemens Nixdorf oder die Symmetry-Serie von Sequent, als zu den MPPs.

Bei einem Markt mit derart vielen und verschiedenen Architekturen ist es neben allen Details sehr hilfreich, wenn man sich einen Überblick über deren wesentliche Merkmale verschafft. Hierfür sind im Laufe der Zeit verschiedene Klassifikationen vorgeschlagen worden, deren Aussagekraft sich im Laufe der Zeit genauso wie der Markt selbst gewandelt hat.

Von uns wurde daher dieses Jahr eine aktuelle, aussagekräftige neue Klassifikation vorgestellt, in die wir abschließend alle aktuellen Parallelrechner

einordnen möchten [14] (siehe Tabelle 3). Vergleicht man diese verschiedenen Klassen, so bilden sicher die MP-Vektor-Mainframes die am besten im Markt eingeführten und verbreiteten Systeme. Sie werden ihre Bedeutung als "working horses" noch einige Zeit behalten, schließlich aber - ähnlich wie die Mainframes - zum Aussterben verurteilt sein, da die heute erhältlichen MPPs allmählich deren Leistung erreichen.

Überall dort, wo die Forschung am Rechner als Objekt der Forschung wichtiger ist als die Forschung mit dem Rechner als Werkzeug, hat dieser Rechnertyp die MP-Vektor-Systeme fast vollständig abgelöst. Für den breiten Durchbruch auch im kommerziellen Umfeld fehlt ihnen jedoch noch die Akzeptanz bei der großen Zahl von Benutzern ohne Spezialkenntnisse im Parallel Processing. Hier werden in den nächsten Jahren eine Fülle von Erfahrungen - gerade auch bei Universitäten und Forschungsinstituten gesammelt und Entwicklungen forciert werden müssen, um Fortschritte zu erzielen. VSM könnte dabei eine Schlüsselrolle wie vor zwei Jahrzehnten das virtuelle Speicherkonzept spielen.

Literatur:

[1] Hoßfeld, Friedel, "Grand Challenges" - wie weit tragen die Antworten des Super-computing?, Interner Bericht, Forschungszentrum Jülich GmbH, Zentralinstitut für Angewandte Mathematik, November 1991.

[2] Meuer, Hans-Werner (Hrsg.), Supercomputer 92 - Anwendungen, Architekturen, Trends, Seminar, Mannheim, 25 - 27. Juni 1992, Reihe Informatik aktuell, Springer- Verlag 1992.

[3] Oed, Wilfried, Das neue High-End: CRAY Y-MP C90, in: PIK 2/92, S. 98-102, K.G. Saur Verlag München.

[4] Hirai, Michihiro/Ishii, Kouichi/Abe, Hitoshi/Kawabe, Shun, An Overview of the Hitachi S-3800 Series Supercomputer, in: siehe (2).

[5] Meuer, Hans-Werner (Hrsg.), Heterogene Netze und Supercomputer, Springer- Verlag 1992.

[6] Steele, G.L.Jr., An Overview of the Connection Machine Model CM-5, in: siehe 2.

[7] Bemmerl, Thomas, Paragon XP/S - The Road to TeraFLOPS, in: siehe 2.

[8] Kroj, Wolfgang, Paralleles Supercomputing, Perspektiven für die 90er Jahre, in: siehe (2).

[9] Baetke, Frank/Metzger, Bob/Smith, Presley, The Convex Application Compiler - A Major Step into the Direction of Automatic Parallelization, in: siehe 2.

[10] Sguazzero, Piero, /Di Antonio, R., Parallel/Distributed Computing on Clusters of High Performance RISC Workstations, in: siehe 2.

[11] Langhammer, Falk, Performance Considerations of Applications on Second Generation Parallel Computers, in: siehe 2.

[12] Butscher, Werner, The Dataparallel Computer MasPar MP-1, in: Hans-Werner Meuer, Supercomputer 91 - Anwendungen, Architekturen, Trends, Seminar, Mannheim 20. - 22. Juni 1991, Informatik-Fachberichte 279, Springer-Verlag 1991.

[l3] Rothnie, James, Kendall Square Research Introduction to the KSRI, in: siehe 2.

[14] Meuer, Hans-Werner/Strohmaier, Erich, Aktuelle Parallelrechner-Konzepte und Architekturen in: Informationstechnik it 34 (1992), S. 17 - 28, Oldenbourg Verlag.