Technik & Know-how: der Cell-BE-Prozessor – Alleskönner oder Hype?

19.10.2006 von Thomas Steudten

Der Cell-Prozessor von IBM, Sony und Toshiba soll schneller und vielseitiger sein als die CPUs von AMD und Intel. Doch wie schnell ist er wirklich und wo wird er eingesetzt?

Der Bedarf an immer größerer Rechenleistung ist enorm. Dies fängt bei modernen Spielekonsolen an, geht über Workstations bis hin zu Cluster und Supercomputer in Forschungs- und Studieneinrichtungen. Beispielsweise werden im Bereich der diagnostischen Medizin oder Meteorologie für Simulationsmodelle und Echtzeit-Visualisierungen schnelle Rechensysteme benötigt.

Primär sind hier Vektorrechner anzutreffen, die mit einer Instruktion gleich eine große Menge von Daten bearbeiten können (SIMD). Cluster- und Grid-Systeme vernetzen dafür extern eine große Anzahl von gleichartigen Systemen beziehungsweise Prozessoren. Ein großer Vorteil wäre also, wenn diese Vernetzung bereits intern, also im System oder On-Chip, erfolgen würde.

Ein Joint-Venture, bestehend aus den Firmen IBM, Sony und Toshiba (STI-Group), hat auf der ISSCC 2005 den 9-Core-Prozessor "Cell Broadband Engine" (Cell BE) angekündigt. Dieser integriert auf einem Chip gleich acht Vektorprozessoren und einen Power5-Kern. Cell BE ist ein eingetragenes Warenzeichen der Firma Sony Computer Entertainment. Künftige Cell-Rechner sollen mit dieser CPU Leistungen erbringen, die bislang Supercomputern vorbehalten waren.

Vorteile von Multi-Core-Prozessoren

Die Taktfrequenz und die Parallelisierung von Einheiten sind zwei wesentliche Faktoren, um die Ausführungsgeschwindigkeit von Programmcode (Instruktionen) bei Prozessoren zu optimieren. Rein technisch betrachtet dürften die heutigen Prozessoren dadurch um einige Zehnerpotenzen schneller in der Programmausführung sein.

Mit steigender Frequenz - damit ist in der Regel auch eine Miniaturisierung der Transistoren auf dem Prozessorchip verbunden - kommen weitere technisch unerwünschte Seiteneffekte zum Tragen. Der Einsatz von mehreren gleichartigen Prozessoren in Form von Multi-Prozessor-Systemen (SMP) ist nicht neu. Neu ist hingegen die Realisierung von mehreren gleichartigen oder unterschiedlichen Prozessorkernen auf nur einem Chip.

Die Kosten für die Produktion eines Multi-Core-Chips sind meist geringer als diejenigen für den Einsatz von mehreren einzelnen Prozessoren. Der aktuelle 65-nm-Fertigungsprozess forciert geradezu diese Migration von mehreren Kernen auf einen Chip. Ein großer Vorteil von Multi-Core-Prozessoren ist der Wegfall der komplexen Verdrahtung zwischen den einzelnen Prozessoren auf dem Mainboard.

Der dynamische Hauptspeicher (DRAM) bildet trotz erweiterter Zugriffsverfahren (DDR, XDR) mit hohen Latenzzeiten einen Engpass. Eine große Anzahl von simultanen Speicherzugriffen ist kaum realisierbar, und somit können auch die Pipelines in schnellen Prozessoren nicht schnell genug mit Daten gefüllt werden. Ihre maximale Leistung entfalten die CPUs dann selten. Daher ist der schnelle und simultane Speicherzugriff ein wesentlicher Ansatzpunkt, wenn es darum geht, Systeme leistungsfähiger zu machen.

Aufbau des Cell BE

Das neue System-on-Chip- (SoC) Design des Cell BE basiert auf der Power-Architektur (PA) von IBM. Ein vereinfachter 64-Bit-Power5-Prozessor (Power Processing Element, PPE) dient zur zentralen Steuerung. Dazu kommen acht unabhängig arbeitende so genannte Synergistic Processing Units (SPU). Die SPUs haben über ihren Direct Memory Access (DMA) unter anderem direkten Zugriff zum Hauptspeicher, der Memory Management Unit (MMU) und dem Bus-Interface.

Letztere bilden die so genannte Synergistic Memory Flow Controler Unit (SMF), die zusammen mit der SPU als Synergistic Processing Element (SPE) bezeichnet wird. Die SPU setzt sich weiter aus dem direkt adressierbaren lokalen Speicher (LS) und der eigentlichen Recheneinheit (SXU) zusammen. Der Power5-Kern besitzt eine VMX-128-Erweiterung für Gleitkomma-Rechenoperationen, arbeitet In-Order und kann zwei Threads meist gleichzeitig ausführen. Die acht Vektorprozessoren (SPU) arbeiten ebenfalls In-Order mit zwei Instruktions-Pipelines und können Operationen mit einfacher Genauigkeit (32 Bit - Single Precision) durchführen.

Basierend auf der Art von Daten für das geplante Einsatzgebiet des Cell wurden die SPUs für einfache Genauigkeit optimiert. Doppelte Genauigkeit bieten diese nur mit eingeschränkter Leistung. Der PPE-Kern kann vier Instruktionen pro Takt laden und zwei ausführen. Mit seiner verzögernden Instruktions-Pipeline ist er begrenzt in der Lage, auch Out-of-Order-Instruktionen für Ladebefehle auszuführen.

On-Chip-Speicher

Der Cell-Multi-Core-Chip verfügt insgesamt über 2,5 MB schnellen SRAM-Speicher. Der Power-Steuerkern besitzt einen 32 KB großen L1-Cache für Daten und Befehle sowie 512 KB L2-Cache. Daneben gibt es jeweils 256 KB lokalen Speicher für Daten und Instruktionen pro SPE.

Die lokalen Speicher jeder SPE sind nacheinander in den Adressraum der PPE – dem Power-Kern – gemappt, so dass die PPE direkt darauf zugreifen kann. Der Hauptspeicher in Form von schnellem XDR-DRAM (12,8 GB/s bei 3,2 GHz Taktfrequenz) wird über ein Dual-Rambus-Interface (XIO je 12,8 GB/s) an den Memory-Controller angebunden. Pro Kanal können acht unabhängige Speicherbänke mit je 256 MB adressiert werden. Off-Chip-Speicherzugriffe erfolgen in 64 Bit über den Memory-Flow-Controller (MFC) in Form einer DMA-Aktion, was einen theoretischen Zugriff auf 2⁶⁴ Byte ermöglichen würde, jedoch wird dies zurzeit nicht genutzt.

Der Zugriff auf den lokalen Speicher der SPEs erfolgt mit 32 Bit, womit also maximal 4 GB adressiert werden können. Über den MFC kann auch auf nicht eigenen lokalen Speicher zugegriffen werden. Es können für jede SPE 128 gleichzeitige Transaktionen zwischen Speicher und Prozessor stattfinden. Auf den L1- und L2-Cache sowie den lokalen Speicher der SPEs kann maximal mit 51,2 GB/s zugegriffen werden. Der Zugriff auf den Hauptspeicher erfolgt mit der halben Bandbreite - maximal 25,6 GB/s. Mit dieser Datenrate sind auch alle Komponenten an den internen Bus angebunden.

Der integrierte mit 5 GHz betriebene I/O-Controller bietet mit zwei schnellen Rambus-FlexIO-Schnittstellen eine maximale Datenrate von 25 GB/s in den Chip und 35 GB/s aus dem Chip heraus für I/O-Daten. Der I/O-Controller dient als so genanntes Broadband-Interface (BIF) zur Vernetzung der Cells untereinander in Mehrprozessorsystemen. Die I/O-Schnittstelle setzt sich aus sieben Sende- und fünf Empfangs-Rambus-RRAC-FlexIO-Links mit je 1 Byte zusammen. Diese Links können zu zwei logischen Interfaces mit programmierbarer Datenrate kombiniert werden.

Interner Highspeed-Bus

Schnelle Recheneinheiten und Controller sind nur eine Seite für eine gute Gesamt-Performance. Erst mit einem schnellen und breitbandigen Interconnect, bei dem möglichst viele Datentransfers parallel ablaufen können, skaliert das Gesamtsystem mit geringen Latenz- und Wartezeiten.

Beim Cell BE übernimmt diese Aufgabe der Element-Interface-Bus (EIB), der autonom 96 Byte pro Bustakt mit einer maximalen Bandbreite von 204,8 GB/s übertragen kann. Dieser kohärente Bus setzt sich aus einem Adressbus und vier Ringen für den Datentransport mit einer Kapazität von je 16 Byte zusammen. Die Bandbreite ist durch den Adressbus begrenzt, da pro Bustakt die maximal 128 Byte breite Adresse gelesen wird. Damit ergibt sich dann: 128 Byte x 3,2 : 2 GHz = 204,8 GB/s.

Drei voneinander unabhängige Datentransfers sind pro Ring möglich, sofern sich die Pfade nicht überlappen. Zwei Ringe arbeiten im, die anderen beiden entgegen dem Uhrzeigersinn. Der EIB arbeitet mit der halben Prozessorfrequenz. Jede SPE und der PPE können somit 16 Byte pro Zugriff austauschen. Der I/O-Controller ist doppelt an den Bus angebunden und hat damit die Möglichkeit, 2 x 16 Byte pro Zugriff zu übertragen.

Round-Robin-Verfahren

Der Datenaustausch zwischen PPE, SPEs, Memory- und I/O-Controller geschieht nach einem festgelegten Protokoll. Alle Einheiten mit Ausnahme des Memory-Controllers, der die höchste Priorität hat, haben die gleiche Priorität. Jede Einheit verfügt über so genannte Befehlskredite, dies ist in diesem Fall die Länge des Befehlspuffers für diese Einheit auf dem Bus. Jede Transaktion benötigt einen Kredit. Wenn ein Platz im Befehlspuffer frei wird, weil eine Transaktion bearbeitet wurde, dann geht dieser Kredit an die Einheit zurück.

Die Logik des Element Interface Bus (EIB) entscheidet bei einer Anfrage zum Datentransfer einer Einheit nun, welcher Ring wann benutzt werden kann. Mittels des Round-Robin-Verfahrens wird bei mehreren Anfragen entschieden, welche Einheit als Nächstes an die Reihe kommt, wobei die Priorität Berücksichtigung findet. Eine Anfrage zum Transfer wird vom EIB nur dann angenommen, wenn der Transportweg nicht mehr als die Hälfte des Rings zum Ziel beansprucht oder wenn der Transport keinen bereits aktiven beeinflusst.

Befehlsausführung

Der Power5-Kern und die acht SPEs verfügen über einen 32 Bit breiten RISC-Befehlssatz, der PPE-Kern über 64 Bit breite allgemeine Register (GPR), 64 Bit breite Gleitkomma-Register (FPR) und 128 Bit breite VMX-Register. Die SPEs haben generell 128 Bit breite Register für skalare Operationen mit 8 bis 128 Bit breiten Datenworten oder für SIMD-Operationen (Single Instruction Multiple Data) mit Integer- oder Gleitkomma-Daten.

Für die SPEs wurde eine neue Instruction Set Architecture (ISA) mit drei Operanden entworfen. Auf jedes der 128 128-Bit-Register kann damit mit sieben Bit bei jeder Instruktion zugegriffen werden. Obwohl die SPE ISA neu ist, wurden die Operationen denen der Power-VMX-Einheit angeglichen. Volle IEEE-Gleitkomma-Arithmetik bieten die SPUs nicht, es wird lediglich ein ausgewählter Teilbereich unterstützt.

Jede SPE verfügt über zwei Instruktions-Pipelines, eine gerade (even) und eine ungerade (odd) Pipeline, wobei bestimmte Instruktionen für eine Pipeline vorbestimmt sind. Pro Takt werden also zwei SIMD-Instruktionen, eine Speicher- und eine Rechenoperation, ausgeführt, wenn einige Anforderungen erfüllt sind:

es gibt keine Abhängigkeiten
Daten (Operanden) sind verfügbar
die adressierte Instruktion an der geraden Adresse ist eine Pipeline-0- (even) Instruktion (= die drei niederwertigsten Adressbits sind 000)
die adressierte Instruktion an der ungeraden Adresse ist eine Pipeline-1- (odd) Instruktion (= die drei niederwertigsten Adressbits sind 100)
die Instruktionen sind nach Pipeline sortiert: Pipeline 0, dann Pipeline 1

Die Even-Pipeline enthält die Gleitkomma- und Integer-Einheiten und die Odd-Pipeline die Local-Store-, Channel-, Permute- und Branch-Einheit. Die meisten Berechnungen werden daher über Pipeline 0 und die Datentransfers über Pipeline 1 ausgeführt. Die SPE verfügt über eine 16x16-Bit-Multipliziereinheit. Eine 32-Bit-Integer-Multiplikation benötigt daher fünf Instruktionen: drei 16-Bit-Multiplikationen und zwei Additionen.

Damit die SPE ihre Arbeit aufnehmen kann, sind die Pipelines mit Instruktionen zu füllen. Es gibt drei Arten von Instruktionen, die aus dem lokalen Speicher geladen werden (Fetch): Flush-initiated, Inline-Prefetch und Hint Fetches. Die interne Logik liest 32 Instruktionen (128 Byte) auf einmal in den Buffer (ILB), und von dort werden jeweils zwei Instruktionen zur Ausgabe in Richtung Pipelines zu den funktionalen Einheiten befördert, sobald die Operanden zur Verfügung stehen. Bestimmte Instruktionen laden weitere Instruktionen in den ILB nach (Hint).

Leistung

Mit ihrem Register File kann die SP sechzehn 8-Bit-, acht 16-Bit-, vier 32-Bit-Integer- oder vier Gleitkomma-Zahlen pro Taktzyklus bearbeiten. Bei 3,2 GHz Taktfrequenz liefert eine SPE damit 4 x 3,2 GHz = 12,8 GFlops, alle acht insgesamt 8 x 12,8 = 102,4 GFlops Rechenleistung. Nach sechs Taktzyklen (Latenzzeit) ist das Ergebnis bei einfacher Genauigkeit verfügbar. Bei doppelter Genauigkeit (zwei 64-Bit-Gleitkomma-Zahlen) kann alle sieben Taktzyklen mit einer totalen Latenzzeit von dreizehn Taktzyklen eine Operation initiiert werden.

Üblicherweise wird die Angabe der Flops-Leistung mit dem Faktor 2 multipliziert, wenn das System Multiplikation und Addition zusammen in einem Zyklus (Multiply-Add-Instruction) durchführen kann. Damit ergibt sich für den Cell BE eine Rechenleistung von 25,6 GFlops beziehungsweise 204,8 GFlops für alle SPEs. Dies ist konform zur Angabe seitens IBM, das heißt 2 x 8 x 4 = 64 Gleitkomma-Operationen pro Taktzyklus. Ingesamt leistet der Cell BE Spitzenwerte von über 256 GFlops bei einfacher und über 26 GFlops bei doppelter Genauigkeit.

Die Leistung eines Mehrprozessorsystems hängt neben der Taktfrequenz von den folgenden Faktoren wesentlich ab:

Max. Ausnutzung aller Einheiten (Pipelining, In-Order-Ausführung, gute Sprungvorhersagen)
Hohe interne und externe Datenbandbreiten
Datenkohärenz und effektiver Mikrocode (SIMD)

Auch wenn der Power-Kern (PPE) Dual-Threading beherrscht, so sind die beiden Threads nicht unabhängig voneinander, da einige Hardware-Ressourcen des PPE gemeinsam genutzt werden. Zur Programmoptimierung empfiehlt IBM, den PPE nur die nötigste Arbeit durchführen zu lassen und den Großteil an die SPEs zu delegieren.

Nur wenn das Programm für den CELL optimiert ist, kann die CPU seine volle Leistung entfalten. Auch während alle acht SPEs aktiv sind, kann sich der PPE anderen Aufgaben widmen. Die Developer-Resource-Seiten von IBM geben dazu nähere Angaben.

Im Vergleich zu einem aktuellen 3,2-GHz-Prozessor ist der Cell BE beim 4kx4k-Linpack-Benchmark mit einfacher Genauigkeit um den Faktor 6 schneller. Je nach Anwendung und Algorithmus ergibt sich laut IBM eine Performance-Steigerung von 0,9 bis 35 bei Einsatz des Cell BE.

Fertigung

Der Prototyp des Multi-Core-Prozessors Cell BE wurde auf Basis der 90-nm-Technologie mit Silicon-on-Insulator (SOI) über einen Zeitraum von vier Jahren im eigens dafür gegründeten STI-Design-Center in Austin/Texas gefertigt. Das Sample arbeitet mit einer Taktfrequenz von 4,6 GHz und bietet auf 221 mm² insgesamt 234 Millionen Transistoren Platz.

Eine SPE beansprucht davon 14,5 mm². Um die dabei auftretende Wärmemenge ohne große Kühlungsmaßnahmen zu kontrollieren, sollen zehn Temperatursensoren und ein linearer Temperatursensor die kritischen Stellen überwachen. Vermutlich kann der Cell auch die Taktfrequenz und die Spannung dynamisch an die CPU-Auslastung anpassen. Bei AMD und Intel ist dieses Verfahren PowerNow! beziehungsweise SpeedStep seit Jahren im Einsatz. Detaillierte technische Daten zum Cell BE sind zurzeit noch kaum verfügbar.

Einsatzgebiete

Auf Grund der hohen arithmetischen Rechenleistung und der großen Speicherbandbreite positionieren die Entwickler den Cell BE in den Bereichen Workstations und Multimedia (Bild-, Video- und Audio-Bearbeitung). Außerdem eigne sich die CPU in Bereichen, wo große Datenmengen „idealerweise“ in Echtzeit bearbeitet oder visualisiert werden müssen. So ist unter anderem die Inverse-Diskrete-Cosinus-Transformation (IDCT) eine Bearbeitung im Video-Bereich, die eine hohe Performance benötigt. Grafische Visualisierungen in Echtzeit im Bereich des High-Performance-Computings (HPC) sind ein weiterer Einsatzbereich.

Sony nutzt den Cell BE in seiner neuen grafischen Spielekonsole PS3, die Mitte November 2006 auf den Markt kommen soll. In der Playstation arbeitet der Cell BE mit 3,2 GHz Taktfrequenz und nur sieben aktiven SPEs - die achte SPE ist redundant. Damit will Sony vermutlich die Ausbeute erhöhen und den Cell auch dann nutzen können, wenn eine SPE defekt sein sollte. Laut Sony erreicht die PS3 eine theoretische Rechenleistung von 218 GFLOPS, was fast fünf Mal so schnell ist wie die Triple-Core-CPU der Xbox 360.

Toshiba als Konsortium-Mitglied hat für den Cell einen Interface-Chip, den so genannten Super-Companion-Chip (SCC), entworfen, der in der PS3 die Schnittstelle zwischen dem Cell-Prozessor und der Außenwelt bildet. Der SCC ist ein LSI-Chip, bestehend aus sieben Layern in Kupfertechnik, misst 12,71 mm² und basiert auf der 90-nm-CMOS-Fertigungstechnologie. Die maximale Betriebsfrequenz ist mit 333 MHz bei einer Kernspannung von 1,2 V spezifiziert.

IBM propagiert den 9-Core-Cell-Prozessor auch für Workstations mit Linux und verspricht, die Spezifikationen und Details zum Cell öffentlich zugänglich zu machen. Eine Portierung von Linux für Cell war bereits erfolgreich. Seit dem Kernel 2.6.16 ist die Cell-Unterstützung enthalten. Im Gegensatz zum symmetrischen Multiprocessing (SMP), bei dem auf jedem Prozessor das Betriebssystem läuft, ist das Betriebssystem beim Cell nur auf dem Power-Kern aktiv. Das OS muss selbst für die Verteilung der Aufgaben auf den acht Vektorprozessoren sorgen. So gesehen ist der Cell BE ein 64-Bit-Prozessor mit acht schnellen, mathematischen Co-Prozessoren für Fest- und Gleitkomma-Berechnungen.

Programmierung

Standard-Software, geschrieben für einen Prozessor, läuft auf mehreren Prozessoren oder einem Multi-Core-Prozessor nicht automatisch schneller. Nur wenn Teile der Software parallel abgearbeitet werden können - die Software also Multithreading-fähig ist - kann diese von mehreren Prozessoren profitieren.

Beim Cell BE ist nur ein Power-Kern für die Software und das Betriebssystem sichtbar. Ohne genaue Informationen über das auszuführende Programm ist das Betriebssystem kaum in der Lage, den Cell auszureizen. Im Embedded- oder Multimedia Bereich, wie bei der PS3, wäre dies eher der Fall, da die Software hier von der Hardware genaue Kenntnisse hat. Für den Cell gibt es mittlerweile eine dokumentierte Entwicklungsumgebung, Programmiertipps und einen Cell-Simulator.

Um den Cell BE auszureizen, sollte das Programm entsprechend dafür optimiert werden. Der Cell BE unterstützt gleichzeitig drei verschiedene Page-Größen von 4 KB, 1 oder 16 MB, was sich auf die Performance auswirken kann. Adressen, die 2 KB voneinander entfernt sind, adressieren also die gleiche Bank. Stellt man sicher, dass die acht SPEs unabhängig voneinander auf je zwei Speicherbänke zugreifen können, so kann dies eine Performance-Verbesserung von 25 Prozent ergeben.

Der Zugriff auf den lokalen Speicher der SPEs ist deutlich schneller, als Daten aus dem Hauptspeicher zu holen. Hält man die zu bearbeitenden Daten daher auf dem Chip, kann dies ebenfalls die Performance positiv beeinflussen. Man sollte jedoch im Auge behalten, dass der lokale Speicher von 256 KB pro SPE begrenzt ist und für das Programm, lokale Datenstrukturen, den Stack und DMA-Buffer genutzt wird.

Es empfiehlt sich, den Compiler entsprechende Optimierungen durchführen zu lassen und im Zweifelsfall selbst Hand anzulegen, möchte man das Optimum aus dem Cell mit seinen acht Vektorprozessoren herausholen.

Cell-Supercomputer

Auf der CeBit 2006 hat ein Konsortium, bestehend aus dem Forschungszentrum Jülich mit IBM und drei weiteren Forschungseinrichtungen, eine Echtzeit-Visualisierung eines schlagenden Herzens mit vier über Gigabit-Ethernet vernetzten Cell-Blades vorgeführt. Die Daten stammten von einem Computer-Tomografen (CT), und die Besucher konnten die Darstellung rotieren und Bereiche, wie das Blut, ausblenden. Diese komplexen und zeitintensiven Berechnungen überfordern heutige Systeme, so dass es zu Wartezeiten in der Darstellung kommt.

Ziel dieses Konsortiums ist, ein SMP-Cluster auf Basis des IBM Cell-Blades zu realisieren. Damit will das Konsortium einen deutschen Supercomputer auf den Markt bringen. IBM wird den bislang namenlosen Cell-Blade vermutlich noch im dritten Quartal 2006 verfügbar machen.

Die Stärke des Cell liegt nicht allein bei der hohen Rechenleistung und der hohen Datenübertragungsrate, sondern auch in der Vernetzung mit weiteren Cell-Prozessoren zu so genannten Clustern (Grid, HPC). Dazu bedarf es eines leistungsfähigen Interconnects zwischen den einzelnen Cell-Prozessoren, damit der Datenaustausch untereinander keinen Flaschenhals bildet. Mit dem BIF beziehungsweise I/O-Interface ist dieser Interconnect vorhanden. Dies erinnert in etwa an die damaligen Transputer der T800- oder T9000-Reihe der Firmen Parsytec oder Inmos, wobei diese den Fokus auf eine effektive Vernetzung untereinander legten.

Konkurrenz

Multi-Core-Prozessoren sind auch im Bereich der digitalen Signalprozessoren (DSP) anzutreffen - hier jedoch für Spezialaufgaben optimiert. Aktuelle Dual-Core-Prozessoren bieten zwei vollständige Kerne auf einem Chip. Im Gegensatz dazu bietet der Cell funktional begrenzte Kerne, die jedoch leistungsfähiger sind.

Der Cell, ursprünglich für anspruchsvolle Gleitkomma-Aufgaben entworfen, scheint mit seinen neun Kernen schon bald von den aktuellen SMP-fähigen Multi-Core-Prozessoren überholt zu werden.

Die kalifornische Startup-Firma Azul Systems kündigt bereits einen 64-Bit-Prozessor mit 48 Kernen und 812 Millionen Transistoren an, der Java- und .NET-Anwendungen beschleunigen soll. Der Vega-2 getaufte Chip soll im 90-nm-Fertigungsprozess produziert werden, Ende 2007 in Appliances verfügbar sein und je 48 GB Speicher adressieren können. Der aktuell verfügbare Vega-Chip mit 24x64-Bit-RISC-Kernen kann 256 GB Hauptspeicher anbinden.

Sun liefert mit dem UltraSparc T1 einen Multiprozessorchip mit acht Kernen und 1,2 GHz Taktfrequenz. Diese acht Kerne beim T1 sind keine vollständigen Prozessoren, sondern abgespeckte Versionen derselben. So teilen sich alle acht Kerne eine einzige Gleitkomma-Einheit - nicht arithmetische Anwendungsbereiche sind hier also die Zielgruppe. Die zwei neuen Systeme Fire T1000 und T2000 sollen der Konkurrenz von IBM und Intel im Bereich Leistung/Watt um den Faktor 4 überlegen sein.

Ein UltraSparc-T1 soll mit nur 72 Watt Energiebedarf beim 90-nm-Prozess auskommen. Intel und AMD liefern derzeit Prozessoren mit Dual-Core-Technologie aus. Bereits im ersten Quartal 2007 will Intel CPUs mit vier Kernen (Quad-Core) vorstellen. Auf AMDs Roadmap steht für 2007 ebenfalls ein Quad-Core-Design. Den Nachfolger des UltraSparc T1 will Sun Mitte 2007 als Niagara-2 (128 Threads) im 65-nm-Prozess fertigen lassen. Leistungsstärker, dafür nicht so sparsam, wird der Rock-Prozessor von Sun ab Q3/2008 sein.

Aussicht

Der Cell BE der ersten Generation hat in der Praxis bereits gezeigt, was er zu leisten vermag. Sein Nachfolger, der Cell-2, soll im 65-nm-Fertigungsprozess produziert werden und darüber hinaus bei den SPEs mit doppelter Gleitkomma-Genauigkeit (Double Precision) ausgestattet sein. Vielleicht verdoppelt das Konsortium auch gleich die Anzahl der SPEs.

Die Affinität zum PC-Markt dürfte indes nicht sonderlich groß sein. Der Cell wird im HPC- und kommerziellen embedded Mediabereich sein Revier beanspruchen und vermutlich auch durchsetzen können, wenn Kosten und Leistung stimmen. (Thomas Steudten, tecChannel.de/tö)