AMDs K10-CPUs

AMD Barcelona: Hoffnungsträger Quad-Core

20.11.2007

AMD zeigt neue Prozessoren mit K10-Architektur. Nativer Quad-Core, L3-Cache, SSE4a, neue Energiespar-Features sowie viel Architekturfeinschliff sollen Opteron und Phenom wieder zum Maßstab machen.

Im Jahr 2003 gelang AMD mit der K8-Architektur schlagartig der Sprung an die Spitze. Dem Konzept von integrierten Speicher-Controllern, flexiblen HyperTransport-Schnittstellen sowie der 64-Bit-Erweiterung konnte Intel mit seiner damaligen NetBurst-Architektur wenig entgegensetzen.

Bildunterschrift: Nativer Quad-Core: AMDs K10-Architektur vereint vier Prozessorkerne auf einem Siliziumplättchen. Im Bild sehen Sie das Die des Desktop-Modells Phenom X4. (Quelle: AMD)

Allerdings gelang Intel mit der Core-Mikroarchitektur 2006 dann der große Wurf. Die entsprechenden "Core 2 Duo" und "Xeon" – bis 2-Wege-Server – setzen bis heute AMDs "Athlon 64" und "Opteron" gehörig unter Druck. Mit angenehmen Folgen für die Kunden: Die Preise purzelten in den letzten Quartalen durch den harten Konkurrenzkampf deutlich nach unten.

Vier Jahre nach dem K8-Debüt stellt AMD seine neue CPU-Generation mit der K10-Architektur vor. Im September ging es los mit Quad-Core-Opterons, sukzessive folgen die Desktop-Modelle "Phenom".

Das Leistungspotenzial steigt bei AMDs K10-Prozessoren gegenüber der Vorgängergeneration deutlich. Denn Schwachpunkte wie die geringe SSE-Performance und vergleichsweise kleine Caches merzte der Hersteller aus. Außerdem punktet die K10-Architektur mit ausgeklügelten Powermanagement-Features und erweitertem Virtualisierungssupport.

Core-Verbesserungen

Die Prozessorkerne der K10-Architektur stattet AMD mit einem erweiterten Instruction Queue zum "vorausschauenden" Speichern von Befehlen aus: Statt 16 wie bei der K8-Architektur sind 32 Byte pro Taktzyklus möglich.

Die Sprungvorhersage des K10-Core soll mehr Treffer als bisher ermöglichen. Außerdem erlaubt AMDs "Advanced Branch Prediction" beim K10 nun 512 Einträge. Die Größe des Return-Stacks verdoppelte AMD ebenfalls. Der neue Sideband Stack Optimizer führt nebenbei Stack-Optimierungen für PUSH/POP-Operationen durch. Laut AMD wird dabei dem übrigen Workflow keine Bandbreite entzogen.

Bildunterschrift: Frischer Core: Die Prozessorkerne der K10-Architektur warten mit vielen Detailverbesserungen auf. Neue Features wie der Sideband Stack Optimizer sind ebenfalls enthalten. (Quelle: AMD)

Neu bei den K10-Cores ist eine Out-of-Order Load Execution. Load-Befehle können durch diese Technologie andere Loads "überspringen". Ebenso sind Loads im Out-of-Order-Verfahren losgelöst von Store-Vorgängen möglich, wenn bekannt ist, dass diese voneinander unabhängig sind.

Durch TLB-Verbesserungen unterstützt die K10-Architektur jetzt 1 GByte große Pages. Statt den bisherigen physikalischen 40 Bit adressieren K10-Prozessoren den Speicher nun mit 48 Bit Breite. Damit erhöht sich der mögliche Arbeitsspeicher von 1 auf 256 Terabyte. AMD vergrößerte zudem die TLBs; damit erhöhe sich laut Hersteller die Performance bei virtuellen Umgebungen sowie bei großen Datenbanken.

K10 beschleunigt mit SSE4a

Eine deutliche Verbesserung erhält die neue AMD-Generation bei der SSE-Befehlsverarbeitung. Der K10-Core kann laut Hersteller zwei 128-Bit-SSE-Befehle pro Taktzyklus einlesen. AMD spricht hier vom "Dual 128-Bit SSE Dataflow". Damit erlaubt der K10-Core bis zu vier Floating-Point-Operationen in doppelter Präzision pro Taktzyklus.

Bei der K8-basierenden AMD64-Architektur ist der SSE-Pfad nur 64 Bit breit. Neue SSE4a-Befehle (EXTRQ, INSERTQ, MOVNTSD und MOVNTSS) sowie Erweiterungen für die Bit-Manipulation (LZCNT und POPCNT) implementiert AMD ebenfalls. Damit will der Prozessorhersteller die bisher geringere SSE-Performance gegenüber den Intel-CPUs wettmachen.

Die von AMD auch als SSE128 bezeichnete Fließkommabeschleunigung soll beispielsweise Matrix-Multiplikationen um 85 Prozent beschleunigen. Für andere rechenintensive Fließkommaberechnungen gibt AMD einen Performance-Vorteil von 10 bis 50 Prozent an.

Unabhängige Speicher-Controller

Die K8-basierenden Socket-F-Opterons, Athlon-64-X2-Modelle sowie der Athlon 64 FX verfügen über zwei 64-Bit-Speicher-Controller. Durch ein Lock-Step sind beide Controller voneinander abhängig, Speicheroperationen werden stets verteilt auf beiden Channels durchgeführt. Bei den K10-Prozessoren legt AMD die beiden DRAM-Controller unabhängig voneinander aus.

Damit sind mehr DRAM-Bänke möglich, und die Page-Konflikte werden reduziert. Außerdem erlauben die zwei unabhängigen Controller größere Burst-Längen. Das Write Bursting soll beim K10 mehrere Schreib- und Lesezugriffe auf den Speicher bündeln und dann in einem Durchgang ausführen. Damit will AMD die effektive Speicherbandbreite erhöhen. Die Kerne des K10 können dabei unabhängige 64-Bit-Opterationen auf den zwei Channels oder gebündelte 128-Bit-Speicherzugriffe durchführen.

In der Northbridge weitete AMD zudem die Puffergrößen aus und optimierte die Scheduler. Bei den Speichertechnologien unterstützt die K10-Northbridge weiterhin DDR2-SDRAM. AMDs Opteron mit K10-Core – Code-Name "Barcelona" – steuert gepufferte DDR2-667-DIMMs an. Die Desktop-Prozessoren Phenom sowie der Opteron "Budapest" unterstützen DDR2-Module mit Geschwindigkeiten bis 1.066 MHz.

Neue Cache-Struktur

Die Opteron- und Phenom-Prozessoren mit K10-Core besitzen eine neue Cache-Struktur. Neben jeweils einem 128 KByte fassenden L1-Cache (je 64 KByte für Daten und Befehle) und dem 512 KByte großen L2-Cache pro Core gibt es zusätzlich einen Shared-L3-Cache.

Die dritte Pufferstufe, auf den alle Cores zugreifen, dimensioniert AMD auf 2 MByte. Damit soll der Speicherzugriff entlastet werden. Allerdings wird AMD auch K10-Modelle ohne dritte Pufferstufe anbieten; die Architektur ist entsprechend flexibel ausgelegt.

Mit den eigenen L2-Caches pro Core reduziert AMD Konflikte im Puffer. Besonders in virtualisierten Umgebungen seien die dedizierten L2-Caches ein Vorteil gegenüber einer gemeinsamen zweiten Pufferstufe. Die Daten-Cache-Bandbreite verdoppelte AMD gegenüber der K8-AMD64-Generation mit 2 x 128 Bit Loads pro Taktzyklus. Auch zwischen dem L2-Cache und der integrierten Northbridge ermöglicht der K10 128 Bit an Daten pro Taktzyklus – im Vergleich zu 64 Bit bei K8-Prozessoren.

Virtualisierung mit Nested Paging

Die Virtualisierungstechnolgie "Pacifica" erhält bei den K10-Prozessoren ebenfalls Erweiterungen. So will AMD mit seiner K10-CPU-Generation die Umschaltzeit zwischen virtuellen Maschinen um 25 Prozent reduzieren. Verantwortlich hierfür zeichnet das Feature "Nested Paging".

Normalerweise arbeitet jede virtuelle Maschine (VM) in einem eigenen Adressbereich, den der Hypervisor unter Kontrolle behält. Die Adressanfragen einer VM übersetzt der Hypervisor und lenkt sie auf entsprechend zugewiesene physikalische Adressen um. Werden die Daten aus dem Speicher gelesen, so muss sie die Virtualisierungssoftware erneut für die virtuelle Maschine umleiten.

AMDs K10-Prozessoren können diesen Vorgang mit Hardwareunterstützung durch den neuen Speichermodus "Nested Paging" mit Nested Page Tables (NPT) erledigen. In der "normalen" x86-Architektur gibt es ein CR3-Register, das die physikalische Adresse des Page Table speichert. Der Page Table regelt dann in Zusammenarbeit mit der Memory Managing Unit (MMU) der CPU die Adressübersetzung.

Der Nested-Paging-Modus der K10-Architektur stellt dagegen jeder VM ein eigenes virtualisiertes CR3-Register zur Verfügung. Dieses so genannte gCR3 wird bei jedem VM-Ein- und Austritt geladen und gespeichert. Die Ergebnisse sind im TLB gepuffert. Es wird mit den Nested Paging zwar eine zusätzliche Übersetzungsschicht eingeführt, die Vorgänge erfolgen aber Hardware-basieret und somit effizienter. Außerdem reduziert der Einsatz von Nested Paging die Frequenz von #VMEXIT.

Quad-Core = mehr Performance, gleiche TDP

Um den Vorteil von Quad-Core-Prozessoren zu zeigen, vergleicht AMD die Rechenleistung und den Energiebedarf mit zwei Dual-Core-CPUs.

So bewirkt eine 16 Prozent höhere Taktfrequenz bei einem 2-Sockel-System mit zwei Dual-Core-Prozessoren laut AMD 14 Prozent mehr CPU-Performance. Gleichzeitig erhöht sich der Energiebedarf um 51 Prozent. Wird die Taktfrequenz dagegen um 16 Prozent reduziert, sinken die Performance um 13 Prozent und der Energiebedarf um 51 Prozent.

Zwei Quad-Core-Prozessoren arbeiten bei einer im Vergleich zu den Dual-Core-CPUs 16 Prozent geringeren Taktfrequenz aber 73 Prozent schneller – bei gleicher Architektur. Dabei benötigen die beiden Quad-Core-CPUs ein Prozent weniger Energie als die zwei Dual-Core-Prozessoren.

AMDs Topmodelle der K8-Dual-Core-Opterons sind mit 120 Watt TDP spezifiziert. Die K10-Quad-Core-Opterons gibt es in Versionen mit 68 und 95 Watt TDP. Die Topmodelle sind wieder mit 120 Watt TDP spezifiziert. Damit können die K10-Vierkerner laut AMD in vorhandenen Socket-F-Systemen mit unveränderten Kühlmaßnahmen betrieben werden.

Neue DICE-Technologie

AMDs Quad-Core-K10-Prozessor reguliert das Powermanagement seiner vier Kerne mit der DICE-Technologie. Das "Dynamic Independent Core Engagement" erlaubt die dynamische und individuelle Anpassung der Taktfrequenz jedes einzelnen Cores. So kann beispielsweise ein Core mit voller Taktfrequenz arbeiten, der zweite mit auf 50 Prozent reduziertem Arbeitstakt, und die Kerne drei und vier sind im Halt-Modus.

AMD integriert beim Barcelona separate Spannungsversorgungen für die Cores und die Northbridge. Damit können die Kerne die Core-Spannung reduzieren, während die Northbridge unabhängig davon in einem eigenen Energiesparmodus arbeitet. Außerdem lässt sich die Taktfrequenz der Northbridge durch eine zusätzliche Spannungserhöhung für mehr Performance "übertakten".

Um diese Funktionen zu nutzen, müssen Mainboards allerdings zwei getrennte Spannungsversorgungen (Split Power Plane) für die vier Kerne sowie die Northbridge besitzen. Bei aktuellen Socket-F-Mainboards ist dies von den jeweiligen Modellen abhängig, ob die Hersteller Split Power Plane bereits integriert haben. Für K10-Desktop-Mainboards wird für diese Funktion der aktualisierte Socket AM2+ notwendig.

Desktop-Modelle: Phenom

Mit der Einführung der neuen K10-Architektur bei den Desktop-Prozessoren – Codename "Stars" - verabschiedet sich AMD langsam von der Bezeichnung Athlon 64. Als Topmodell wird im ersten Quartal 2008 der Phenom FX für die 4x4-Plattform fungieren. Der Phenom FX für 2-Sockel-Mainboards erhält den nativen Quad-Core der K10-Architektur und löst die Athlon-64-FX-CPUs ab. Damit bietet AMDs künftige Enthusiast-Plattform acht Prozessorkerne.

Bildunterschrift: Neuer Name, neues Glück: AMD will mit den K10-Prozessoren Phenom X2, X4 und FX den Core-2-Modellen von Intel das Leben wieder schwer machen. (Quelle: AMD)

Für "normale" 1-Sockel-Mainboards soll die Phenom-9000-Serie (Phenom X4) das Maß der Dinge darstellen. Als Steckplatz erhalten die Quad-Core-Phenoms den Socket AM2+ mit HyperTransport 3.0. Auch der Phenom FX arbeitet statt im aktuellen Socket 1207FX dann im schnelleren Socket 1207FX+ mit HyperTransport-3.0-Unterstützung.

Den native Quad-Core-Chip des Phenom X4 9000 und Phenom FX stattet AMD mit dem 2 MByte großen L3-Cache aus. Dual-Core-Versionen mit K10-Architektur bietet AMD zusätzlich mit dem neuen Phenom X2 an. Der Doppelkerner wird ebenfalls den integrierten L3-Cache erhalten. Im ersten Quartal 2008 wird AMD zudem Triple-Core-Versionen des Phenom anbieten.

Taktfrequenzen & Launch-Termin

AMDs neue Desktop-Prozessoren erhalten einen integrierten Dual-Channel-Speicher-Controller für DDR2-1066-SDRAM. Alle vier Kerne der K10-Architektur können mit voneinander unabhängiger Taktfrequenz arbeiten. Die Core-Spannung orientiert sich jeweils am Kern mit der aktuell höchsten Taktfrequenz. Die hierfür notwendige "Split Power Plane" ist in Mainboards mit Socket AM2+ oder 1207FX+ zwingend. Der Phenom sollte auch in aktuellen Socket-AM2-Boards arbeiten, dann aber mit geringerer HyperTransport-Geschwindigkeit und mit weniger Powermanagement-Features.

Alle K10-Prozessoren, wie den Phenom, fertigt AMD in seinem 65-nm-Prozess. Als Taktfrequenzen werden in der Top-Version 2,4 GHz gehandelt.

Athlon 64 X2 bekommt neue Gnadenfrist

Der Phenom X2 mit Dual-Core-Technologie folgt voraussichtlich auch noch im vierten Quartal 2007. Und ganz lässt AMD den Namen "Athlon 64" noch nicht in der Versenkung verschwinden. So wird es künftig einen Athlon 64 X2 mit auf der K10-Architektur basierenden Dual-Core-Technologie geben. Im Unterschied zum Phenom X2 verzichtet AMD beim Athlon 64 X2 aber auf einen L3-Cache.

Der K10-basierende Athlon 64 X2 debütiert inoffiziellen Roadmaps zufolge allerdings erst im ersten Quartal 2008. Eine Single-Core-Version mit K10-Architektur soll es dann ebenfalls unter dem Modellnamen Sempron geben.

Alle Athlon 64 X2 und Phenom erhalten AMDs neues Modellnummern-Schema, das der Hersteller beim 45-Watt-Modell Athlon X2 BE Anfang Juni 2007 einführte.

Server-Modelle: Opteron "Barcelona" & "Budapest"

Bei seinen Server-Prozessoren verwendet AMD mit der K10-Architektur weiterhin den Markennamen "Opteron". Es wird wieder Modelle der Serien 1000 (1-Sockel), 2000 (2 Sockel) und 8000 (bis 8 Sockel) geben.

Die Opteron-1000-Serie "Budapest" mit K10-Quad-Core produziert AMD für den Socket AM2+ mit HyperTransport-3.0-Schnittstelle. Der Prozessor soll auch in vorhandenen Socket-AM2-Mainboards arbeiten – dann aber mit reduzierter Interface-Geschwindigkeit. Der Budapest ist mit einem 2 MByte großen L3-Cache ausgestattet. Beim Speicher steuert er ungepufferte DDR2-1066-DIMMs in einer Dual-Channel-Konfiguration an.

Bildunterschrift: Budapest: Die K10-basierende Opteron-1000-Serie "Budapest" für den Socket AM2+ steuert ungepufferte DDR2-1066-DIMMs an. (Quelle: AMD)

Die K10-Opterons der Serien 2000 und 8000 mit Code-Namen "Barcelona" verfügen ebenfalls über den integrierten L3-Cache. AMD liefert die Prozessoren weiterhin für den aktuellen Socket F aus. Den schnelleren HyperTransport-3.0-Bus gibt es hier erst in der nächsten Generation "Shanghai". Damit arbeitet Barcelona wie die K8-basierenden Santa-Rosa-Opterons mit gepufferten DDR2-667-Speichermodulen.

Bildunterschrift: Barcelona: Die K10-Opterons für Mehrwegesysteme verwenden den bekannten Socket F. Auch beim Speicher steuert Barcelona unverändert gepufferte DDR2-667-DIMMs an. (Quelle: AMD)

Die ersten Quad-Core-Modelle gibt es seit September 2007 mit Taktfrequenzen bis 2,0 GHz.

Aufgefrischter K10: AMDs "Shanghai" 2008

In der ersten Jahreshälfte 2008 bringt AMD mit dem Opteron "Shanghai" eine aktualisierte K10-Variante auf den Markt. Die CPU arbeitet weiterhin mit vier Kernen, vereint auf einem Siliziumplättchen. Den Shanghai-Prozessor wird AMD aber neben Versionen mit 2 MByte L3-Cache auch mit einer 6 MByte großen dritten Pufferstufe anbieten.

Der integrierte Dual-Channel-Speicher steuert weiterhin gepufferte DDR2-DIMMs an. Allerdings erhöht AMD die Geschwindigkeit von 667 auf 800 MHz. Auch die HyperTransport-Schnittstellen unterstützen dann die Version 3.0. Die Shanghai-Prozessoren werden auf einen Socket F+ setzen, ähnlich dem Socket 1207FX+ des Phenom FX für die 4x4-Plattform. Allerdings bleibt der Shanghai kompatibel zu den bisherigen Socket-F-Plattformen.

Bildunterschrift: Shanghai: Mit aktualisierter K10-Architektur will AMD den Opteron im ersten Halbjahr 2008 ins Rennen schicken. Ein größerer L3-Cache, schnellerer Speicher sowie vier HT-3.0-Schnittstellen sind die wesentlichen Neuerungen. (Quelle: AMD)

Neue Powermanagement-Features wie ein Temperatur-Management des Systembusses sowie ein HyperTransport Error Retry für einen sichereren Betrieb ergänzen den Shanghai. Auch bei der Virtualisierung wird Shanghai erstmals die von AMD bereits angekündigte I/O-Virtualisierung IOMMU unterstützen.

Ob AMD den Shanghai bereits mit 45 nm Strukturbreite fertigen wird, bleibt abzuwarten. Laut AMDs Prozess-Roadmap will der Hersteller Mitte 2008 von 65 nm auf die geringere Strukturbreite übergehen.

Shanghai mit vier HT-3.0-Links

Um die Speicherbandbreite in Systemen mit vier oder mehr Prozessoren zu erhöhen, stattet AMD die Shanghai-Quad-Core-Opterons mit vier statt maximal drei 16-Bit-HyperTransport-Links aus. Sind mehrere Opterons via HyperTransport miteinander verbunden, kann jede CPU auch auf den Speicher der benachbarten zusätzlich zugreifen. Diese von AMD als Xfire bezeichnete Speicherbandbreite addiert sich zur lokalen Bandbreite der CPU.

Bei einem 4-Sockel-System steigt durch den vierten HyperTransport-Link die Xfire-Speicherbandbreite jedes Opterons von 14,9 GByte/s auf 29,9 GByte/s (HT 2.0). Mit HyperTransport 3.0 vervierfacht sich die Xfire-Bandbreite. Bei 8-Sockel-Systemen erhöht sich die Xfire-Bandbreite jeder CPU laut AMD um den Faktor 6, wenn gleichzeitig die dritte HyperTransport-Generation zum Einsatz kommt.

Bildunterschrift: Extreme Verlinkung: Bei einem System mit acht Shanghai-Prozessoren lassen sich pro CPU acht 8-Bit-HT-3.0-Links verwenden. (Quelle: AMD)

Ausblick

In AMDs K10-Architektur mit Quad-Core-Technologie steckt einiges an Potenzial. Die bisherigen Stärken aktueller AMD64-Prozessoren werden konsequent ausgebaut. So beschleunigt und verfeinert AMD die integrierten Speicher-Controller ebenso wie die HyperTransport-Schnittstellen. Schwachpunkte wie die – im Vergleich zur Konkurrenz – geringe Floatingpoint-Performance merzt der Hersteller aus. Die neue SSE128-Technologie verspricht einen deutlichen Geschwindigkeitsschub gegenüber den K8-Modellen.

Für eine hohe Performance pro Watt sollen neue Energiesparmaßnahmen wie die dynamische und individuelle Anpassung der Taktfrequenz jedes einzelnen Cores sorgen. Außerdem kann die integrierte Northbridge unabhängig davon seine Spannung und Taktfrequenz regeln. So gesehen bietet die K10-Architektur auch beim Powermanagement deutliche Fortschritte.

Ein Manko der K10-Prozessoren ist die vergleichsweise geringe Taktfrequenz von maximal 2,0 GHz bei den ersten Quad-Core-Opterons. Hier sollte AMD möglichst schnell mehr ermöglichen, denn Intel kommt bereits Ende 2007 mit seiner neuen 45-nm-CPU-Generation Penryn. (tecchannel/bb)