Melden Sie sich hier an, um auf Kommentare und die Whitepaper-Datenbank zugreifen zu können.

Kein Log-In? Dann jetzt kostenlos registrieren.

Falls Sie Ihr Passwort vergessen haben, können Sie es hier per E-Mail anfordern.

Der Zugang zur Reseller Only!-Community ist registrierten Fachhändlern, Systemhäusern und Dienstleistern vorbehalten.

Registrieren Sie sich hier, um Zugang zu diesem Bereich zu beantragen. Die Freigabe Ihres Zugangs erfolgt nach Prüfung Ihrer Anmeldung durch die Redaktion.

19.09.2003 - 

Trips-Architektur macht Prozessoren extrem schnell

Ein Supercomputer auf einem Chip

MÜNCHEN (CW) - Forscher von IBM und der Universität Texas in Austin wollen eine CPU entwickeln, deren Performance in Regionen heutiger Supercomputer liegt.

Die theoretischen Grundlagen der neuen CPU-Architektur "Tera-op Reliable Intelligently-adaptive Processing System" (Trips) hat ein Wissenschaftlerteam der Universität Austin erarbeitet. Zusammen mit IBM Research sollen nun das konkrete Design und Herstellungsmethoden des Chips erforscht werden. Die Defense Advanced Research Projects Agency (Darpa) fördert das Projekt über eine Laufzeit von 30 Monaten mit 11,1 Millionen Dollar. IBM spendet außerdem ein Cluster aus Intel-basierenden xSeries-Rechnern zur Simulation des Prozessordesigns und könnte eines Tages den Chip herstellen.

Ziel des Projekts ist es, bis zum Jahr 2010 eine CPU zu konzipieren, die mit einer Taktrate von 10 Gigahertz auf einen Durchsatz von einer Billion Operationen pro Sekunde kommen soll. Zunächst aber geht es darum, bis Dezember 2005 als Machbarkeitsstudie einen Trips-Prototypen zu entwickeln. Dieser Chip wird mehr als 250 Millionen Transistoren enthalten und mit 500 Megahertz arbeiten.

Diese erste Trips-CPU soll aus vier Prozessorkernen bestehen, die auf fünf als Cache der Level 2 oder 3 nutzbare Speicherblöcke zugreifen, die kreuzförmig zwischen ihnen angeordnet sind. Die Prozessorkerne ähneln intern den Nodes eines Clusters. Denn sie bestehen im Prototyp aus jeweils 16 logischen Einheiten. Diese werden über einen Block-Controller gesteuert und haben gemeinsamen Zugriff auf im Prozessorkern enthaltene Level-1-Caches für Befehle und Daten sowie auf Register. Dadurch kann jeder Prozessorkern pro Taktzyklus 16 Operationen ausführen. Für spätere Versionen dieser CPU ließe sich nun sowohl die Zahl der Prozessorkerne auf einem Chip, als auch die Menge ihrer logischen Einheiten sowie darüber hinaus das Volumen der Speicher in der CPU erhöhen.

Große Befehlsblöcke splitten und parallel abarbeiten

Der Vorteil der Node-artigen logischen Einheiten besteht primär in der "block-oriented Execution". Statt wie bei normalen CPUs in einem Takt nur eine oder wenige Berechnungen ausführen zu können, erfasst der Trips-Prozessor große Befehlsblöcke, die er auf die logischen Einheiten verteilt. Wie in einem Cluster lassen sich mehr parallele Aufgaben abarbeiten, was sich in einer deutlich höheren Performance niederschlägt.

Solche parallelisierenden Prozessoren sind nicht ganz neu, aber ihre bisherigen Ausprägungen sind festgelegt auf die Granularität der Anwendungen, auf die Größe, in die sich ihre Befehlssätze splitten lassen. Demzufolge sind solche CPUs je nach ihrer Bauweise nur für spezifische Anwendungen nutzbar. Die Besonderheit der Trips-Architektur aber besteht im "Polymorphismus", sie eignet sich für Applikationen mit ganz unterschiedlichen Architekturen.

Voraussetzung dafür ist aber die Entwicklung einer flexiblen internen Steuerung der CPUs. Dafür stehen die Worte "Intelligently-adaptive Processing" aus dem Kürzel Trips. Das umfasst die Konfigurierbarkeit der Prozessoren und des internen Speichersystems, die Überwachung der Auslastung aller CPU-Teile, ihrer Stromversorgung und Temperatur, das Load-Balancing zwischen Prozessorkernen und -Nodes sowie den Datenaustausch zwischen den Execution-Nodes. Eine Trips-CPU braucht nicht zuletzt neue, spezifische Compiler. Auf das gemeinsame Forscherteam von IBM und Universität Austin kommt also noch reichlich Arbeit zu. (ls)

Abb: Power durch parallele Prozesse

Trips-Architektur: Die für den Prototypen vorgesehenen vier Prozessorkerne bestehen aus jeweils 16 Node-artigen logischen Einheiten, die parallel Befehle abarbeiten können (stark vereinfachte Darstellung). Quelle: University of Texas, Austin