Melden Sie sich hier an, um auf Kommentare und die Whitepaper-Datenbank zugreifen zu können.

Kein Log-In? Dann jetzt kostenlos registrieren.

Falls Sie Ihr Passwort vergessen haben, können Sie es hier per E-Mail anfordern.

Der Zugang zur Reseller Only!-Community ist registrierten Fachhändlern, Systemhäusern und Dienstleistern vorbehalten.

Registrieren Sie sich hier, um Zugang zu diesem Bereich zu beantragen. Die Freigabe Ihres Zugangs erfolgt nach Prüfung Ihrer Anmeldung durch die Redaktion.

Neue Herausforderungen für Number-Cruncher

Massiv-paralleles Supercomputing führt zu einem Paradigmenwechsel

08.11.1991

Es geht die Rede um von den "Grand Challenges", die den Superrechnern bisherigen Zuschnitts den Garaus machen sollen. Theoretisches Apokalypse-Gerede oder wahre Engpaß-Situation - aus der nur die Massiv-Parallel-Systeme herausführen können? Was verbirgt sich hinter den "großen Herausforderungen" und sind sie wirklich fähig, einen baldigen Paradigmenwechsel in Hardware- wie auch Software-Technologie zu erzwingen?

In Zeiten des Umbruchs eröffnen sich Chancen für neue Spieler am Markt. Wie stehen die Chancen für einen europäischen Parallel-Rechner auf Transputer-Basis nach dem Suprenum-Debakel? Reicht das Engagement in puncto Finanzförderung sowie Campus-Forschung, um den Massiv-Parallelen den Weg in die Industrie zu eröffnen?

Das Problem ist hinlänglich bekannt: Bereits mittelfristig dürften Superrechner mit traditionellen Architekturen den anstehenden Aufgabenstellungen in Technologie und Wirtschaft nicht mehr gerecht werden können. Sequentielles Rechnen, Vektoreinheiten und Parallelverarbeitung mit nur wenigen gleichzeitig arbeitenden CPUs, die sämtlich auf einen "globalen" Speicher zugreifen - all das wird nicht mehr genügen, um Dimension von Performance jenseits der Tflops-Marke zu erreichen. Denn im Bestreben, die Leistung der einzelnen Prozessoren sowie insbesondere deren Zugriff auf den gemeinsamen Speicher noch wesentlich hochzupuschen, sehen sich die Hersteller physikalischen Grenzen gegenüber. Ein einziges Tflops sind nicht weniger als 1000 Gflops (1 Gflops = 1 Milliarde Fließkomma-Operationen pro Sekunde) - eine Leistungsmarke, die zirka um den Faktor 100 bis 200 höher liegt, als die der zur Zeit schnellsten Top-Maschinen Ó la Cray oder NEC. Und diese Maschinen kosten heute nicht weniger als 30 Millionen Dollar.

Bislang sind die Modelle grob und eingeengt

Leistungen in Tera-Dimensionen aber verlangen die inzwischen vielzitierten "Grand Challenges" - zukünftige Applikationen wie etwa wirklich aussagefähige Klima- und Ökologie-Simulationen im Geo-Bereich, Halbleiter- und Supraleiter-Modeling in der Festkörper-Forschung oder sehr viel verläßlicheres und effizienteres Number-Crunching beim Drug-Design, in Aerospace oder Automobil-Entwicklung. Angepackt und mit allerlei Vektormaschinen gerechnet werden zwar bereits heute schon fast alle Arten von Problemstellungen, aber nicht selten nehmen sich die Grundbedingungen noch geradezu archaisch aus. Ob Klimaprognose, Flügelumströmung oder Verbrennungssimulationen bei der Optimierung des guten Otto-Motors - gefordert ist eine wesentlich detailliertere Unterteilung des Problemraums in mehr Gitterzellen, so daß sich Aerodynamik und Fluidmechanik auch mit Turbulenz rechnen lassen. Dabei bedeutet die Einführung einer Turbulenz zugleich, daß das physikalische Modell - und damit der pro Gitterzelle auszuführende Numerik-Formalismus - erheblich komplexer wird.

Schaut man sich in der aktuellen Anwenderszene um, muß man sich gelegentlich wundern, daß die bisherigen Ergebnisse überhaupt brauchbar waren. Denn die physikalischen Modelle, mit denen an die Probleme herangegangen wird, sind zum großen Teil grob simple Beschreibungsversuche der Wirklichkeit - deren Glaubwürdigkeit dann letztlich erheblichen Aufwand für Zusatzforschung erfordert. Wenn beim Drug-Design Molecular-Modeling über eine Vorstellung gerechnet wird, wonach die Atome als Kugeln an einer Federkette sitzen, wenn beim Reifendesign mit 2D-Modellen plus Rotationssymmetrie gearbeitet wird, wenn Automobilentwickler ihre Crash-Simulationen mit Pauschalparametern rechnen - dann sind dies nur wenige Beispiele für die heute noch so eingeengte FuE-Situation.

In Zukunft sind neue Rechnerarchitekturen nötig

Was die Zukunft verlangt, ist, daß sich nicht nur neuartige Probleme angehen, sondern daß sich bekannte Probleme sachgerechter lösen lassen, daß der Wirkstoff-Forscher sein Molekül nicht mehr federmechanisch, sondern quantenmechanisch, daß der Reifenkonstrukteur sein Gebilde dreidimensional und der Auto-Entwickler seine Crashs mit spezifischen Fahrzeugdaten rechnen kann. Und effizienter arbeiten, heißt für die Zukunft schließlich: Es kann die Formel nicht mehr genügen, daß nun Jobs, die früher Jahre gedauert hätten und deshalb gar nicht angepackt wurden, heute in Wochen zu erledigen sind. Die Wirtschaftlichkeit wie auch die Motivation, Simulationsalternativen "durchzuspielen", wächst mit wesentlich verkürzten Laufzeiten. Als größter und durchaus Verständlicher Wunsch steht hier sicherlich die Realzeit-Forderung auch komplexester Simulationen an. So ist es der Traum eines jeden Drug-Designers, das Eindocken eines Wirkstoffs in einen Rezeptor dereinst interaktiv am Grafikschirm durchführen zu können. Kurz: Der Supercomputer der Zukunft müßte die Berechnung der Wechselwirkung Wirkstoff-Rezeptor in Sekunden liefern - eine gigantische Anforderung.

Wenn folglich die Rede ist von den anstehenden Grand Challenges, muß man den Blick keineswegs nur auf die spektakulären Novitäten richten - wie etwa auf das Verlangen der Kern-Forscher nach Tflops wegen ihrer Quanten-Chromodynamik. Der Hunger nach gewaltiger Performance scheint allgegenwärtig.

Die für derlei Forderungen nötige Rechnerleistung läßt sich also nicht mehr dadurch erreichen, daß bisherige Architekturen hochgezüchtet werden.

Multiprozessor wird zum Multicomputersystem

In der Supercomputer-Entwicklung ist ein grundlegender Architekturwechsel, oder anders ausgedrückt: ein Paradigmenwechsel. Denn die Performance muß wirklich in großem Stile multipliziert werden. Und das Mittel der Wahl sind die massiv-parallelen MIMD-Systeme - Systeme nicht mit Hunderten, sondern Tausenden und Zigtausenden von parallel und völlig unabhängig arbeitenden Prozessoren.

Zwar gibt es Maschinen, die 64 000 Rechnerknoten zusammenspannen, etwa die Connection-Machine von Thinking Machines. Doch arbeiten darin bislang nur vergleichsweise schwache Bit-Slice-Prozessoren zusammen - sie können sich nur auf ein kleines Arbeitssegment von 1- oder 4-Bit-Breite stürzen -, und insbesondere arbeiten sie auch nicht unabhängig voneinander, sondern führen alle zur gleichen Zeit nur einen Befehl aus. Nein, verlangt ist eine Heerschar von vollwertigen CPUs von mindestens 32-Bit-Stärke und MIMD- statt SIMD-Fähigkeit, das heißt Multiple-Instruction-Multiple-Data statt Single-Instruction-Multiple-Data.

Durch die Ansammlung der vielen CPUs soll sich indessen nicht nur die Gesamtleistung nach oben skalieren lassen. Skalierbar wird auch die Größe des Speichers, wenn man jeder CPU ihr eigenes, lokales Memory verpaßt - und damit aus einem Multiprozessor-System ein Multicomputer-System macht. Allein an der mangelnden Größe des Gesamtspeichers scheitern heute viele Projekte, die gerne in Angriff genommen würden. 32 MB pro CPU sind andererseits bereits heute in existierenden massiv-parallelen Systemen realisiert - und 16 000 Knoten brächten den Gesamtspeicher folglich auf die gewaltige Dimension eines halben TB.

Beste Aussichten für massivparallele Systeme

Ein zweiter Aspekt ist maßgeblich, wenn es um die Sinnfähigkeit einer Ablösung der traditionellen Rechnerarchitektur geht. Und hier geht es nicht um die auszudehnenden Höchstmarken. Es gibt schon gegenwärtig weit mehr Bedarf und Interesse, Simulation und damit Supercomputing zu betreiben, als der Markt dies wirklich zuläßt. Oft würde ja die Leistung von wenigen Gflops ausreichen - aber der Preis eines Gflops ist noch viel zu hoch. Das bedeutet im Klartext: So, wie vor sechs Jahren Convex auftrat und mit der neuen Rechnerklasse der Mini-Supercomputer einen ganzen Markt schuf, weil Supercomputing unterhalb der Top-Cray-Class erstmalig für einen großen Anwenderkreis bezahlbar wurde, so obliegt es heute der Gattung der Massiv-Parallelen, mit einfacheren Mitteln dafür zu sorgen, daß Gflops billiger zu haben sind. Nicht ausschließlich als technologischer Rettungsanker für Top-Supercomputer-Entwicklung von morgen und übermorgen sollten die Massiv-Parallelen gesehen werden, sondern auch als erschwingliche Plattform für heutige Anwendungen sowie insbesondere als Problemlöser auf Embedded-Ebene.

Die prinzipiell besten Voraussetzungen hierfür sind bei den Massiv-Parallelen gegeben. Anders als bei den hochgezüchteten CPUs sind hier die Knoten weit billiger, denn sie basieren auf Standard-Mikrochips. So baut Intel - ein in diesem Terrain wesentlicher Anbieter von Anfang an - seine IPSC-Computer mit Knoten auf, die heute auf dem Standard-Chip 860 basieren, früher auf den Standard-Chips 80386/80387 und davor sogar auf 80286/80287. Und analog dazu geht der Ansatz bei den Transputer-gestützten Systemen vor.

Allen voran hat sich hier der Aachener System-Hersteller Parsytec zum Schrittmacher gemausert. Parsytec setzt Inmos-Transputer-Chips ein - derzeit den T800, und in der kommenden Generation der "Grand Challange"-Systeme den T9000. Die Systemhersteller profitieren hier von den schnellen Entwicklungszyklen der Standard-Chips. Alle drei Jahre ist eine Verdoppelung der Chip-Performance und damit die eines jeden einzelnen Knotens zu erwarten.

Gemessen an den beachtlichen Erwartungen an diese Rechner kommt man mit seiner Verbreitung einfach nicht so recht in die Gänge. Dafür gibt es zwei Gründe. Zum einem nämlich geben sich die traditionellen Hersteller sehr zuversichtlich, daß sie noch über eine "geraume" Strecke hinweg die Dominanten sein werden - nicht nur, weil sie die Performance noch etwas steigern können, indem sie aus ihren Systemen mit vier hochkomplexen CPUs heute 8, morgen 16 und übermorgen vielleicht sogar 32 machen. Höhere Integration auf Chip-Ebene plus effizientere Fertigungstechniken erlauben es ihnen, im Low-end-Bereich heutige Performance morgen billiger anzubieten.

Soeben hat ja wiederum Convex mit seiner frischgebackenen C3-Generation (8 statt bislang 4 CPUs und mit den schnelleren Gallium-Arsenid-Chips) gezeigt, wie dieser Expansionsweg seitens der klassischen Struktur auch in Richtung eines verbesserten Preis-Leistungs-Verhältnisses weiter beschnitten werden wird.