Von Christian Vilsbeck, tecChannel.de
Teil 1 dieses Beitrags finden Sie in der ComputerPartner-Ausgabe 26/06, Seite 36
Advanced Digital Media Boost
Mit "Advanced Digital Media Boost" will Intel bei der Core-Architektur für eine signifikante Beschleunigung von SSE-Instruktionen sorgen.
Bei NetBurst und dem Core-Duo-Design wird eine 128 Bit breite SSE-Instruktion beim Dekodieren in zwei 64-Bit-Micro-Ops aufgeteilt. Der Datenpfad in die SSE-Execution-Unit besitzt ebenfalls eine Datenbreite von nur 64 Bit. Somit werden für die Ausführung eines 128-Bit-SSE-Befehls zwei Taktzyklen benötigt: Zuerst findet die Berechnung der minderwertigen 64 Bit statt, es folgen im zweiten Taktzyklus die höherwertigen 64 Bit.
Die Core-Architektur besitzt dagegen einen durchgehenden 128-Bit-Ausführungspfad. Intel legt die internen Datenbusse hierfür 128 Bit breit aus. Damit muss nur ein einziger Micro-Op erzeugt, geordnet und ausgeführt werden. Die Berechnung eines SSE-Befehls in der entsprechenden Ausführungseinheit erfolgt in einem Taktzyklus. Damit verdoppelt sich die SSE-Performance. Beispielsweise kann Core auch einen 128-Bit Packet Multiply, 128-Bit Packed Add, 128-Bit Packet Load, 128-Bit Packed Store und einen Macro-Fusion-Befehl "cmp & jcc" zusammen in einem Taktzyklus berechnen.
Durch die SSE-Ausführung in einem Taktzyklus entlastet die Core-Architektur zudem die Load-Pipeline. Bei Mikroarchitekturen, wo der interne 128-Bit-Pfad bei den SSE-Ausführungseinheiten nur noch 64 Bit breit ist, kann es hier zu Engpässen kommen.
Die Core-Architektur beherrscht neben MMX, SSE, SSE2 und SSE3 zusätzlich 16 neue Multimedia-Befehle. Die mancherorts als SSE4 bezeichneten Instruktionen sind vor allem für Berechnungen mit doppelter Genauigkeit hilfreich. Ob die Zusatzbefehle einen neuen Namen erhalten, oder sie in der Bezeichnung "Advanced Digital Media Boost" eingehen, lässt Intel noch offen. Ursprünglich waren die neuen Multimedia-Befehle für den eingestellten NetBurst-Nachfolger mit Code-Namen Tejas vorgesehen.
Advanced Smart Cache
Der "Smart Cache" ist bereits aus dem Core Duo bekannt. Beide Prozessorkerne teilen sich dynamisch einen gemeinsamen L2-Cache. Bei der Core-Architektur verdoppelte Intel allerdings die Bandbreite zum L1-Cache.
Dieser "Advanced Smart Cache" des Core besteht aus einer 2 oder 4 MByte großen zweiten Pufferstufe - je nach Prozessortyp. Der Vorteil von einem Shared Cache ist unter anderem eine bessere Auslastung. Arbeitet beispielsweise nur ein Prozessorkern, so steht diesem der gesamte Cache zur Verfügung. Bei der Dual-Core-Technologie des Pentium D und des Xeons besitzt jeder Kern seinen eigenen L2-Cache. Die Cache-Auslastung ist bei diesen CPU ineffektiver, wenn nicht beide Cores unter Last sind.
Ein weiterer Vorteil des Advanced Smart Cache ist das Data-Sharing zwischen den CPU-Kernen. Benötigt der zweite Kern die Daten, die der erste schon aus dem Speicher geholt hat, so findet er diese bereits im L2-Cache vor. Dadurch wird die Prozessorbus-Auslastung minimiert. Auch die zu bewerkstelligende Cache-Kohärenz bei eigenen L2-Caches pro Prozessorkern ist mit dem Smart Cache obsolet.
Weiterhin kann Intel bei der Core-Architektur Daten zwischen den L1-Daten-Caches der zwei Kerne direkt austauschen. Detaillierte Informationen zu dieser Technik stehen vom Hersteller allerdings noch aus.
Neben den zwei Daten- und einem Befehls-Prefetcher pro Prozessorkern besitzt die Core-Architektur zwei Prefetcher im L2-Cache. Diese suchen beispielsweise nach mehrfach vorhandenen Datenmustern pro Core. Außerdem gibt der Smart Cache so genannte "mismatched loads" - vorab mit falschen Daten geladene Cache-Lines - automatische wieder frei. Damit steht beiden Kernen immer möglichst viel Speicherplatz im L2-Cache zur Verfügung.
Smart Memory Access
Mit Smart Memory Access führt Intel einen Advanced-Prefetch-Mechanismus für den Speicherzugriff ein. Die Core-Mikroarchitektur verbessert damit das Load-/Store-Handling beim Zugriff auf den Arbeitsspeicher. Intel will damit Latenzzeiten "verstecken", indem die CPU Daten bereits spekulativ im Cache hält. Damit soll der Nachteil des externen Speicher-Controllers zumindest teilweise überwunden werden.
Der Smart Memory Access setzt sich dabei aus den Improved Prefetchers sowie der Memory Disambiguation zusammen. Bei einer Out-of-Order-Architektur führt der Prozessor die Instruktionen in einer optimierten, und nicht in der eingehenden Reihenfolge durch. Beim Speicherzugriff kann dies aber zu Problemen führen. Beispielsweise speichert ein Store1-Befehl Daten bei der Speicheradresse F000h. Fünf Befehle später liest die CPU einen Load5-Befehl für diese Adresse ein.
Dazwischen gibt es aber einen zweiten Speicherbefehle Store2 mit noch unbekannter und erst zur Laufzeit generierter Speicheradresse. Würde jetzt durch das Out-of-Order-Verfahren der Load5-Befehl durch die Optimierung vor dem Store2 ausgeführt werden, so liest der Prozessor eventuell die falschen Daten ein. Demnach darf ein Load-Befehl nicht vor dem Store erfolgen, wenn die Adresse des Load-Befehls noch nicht bekannt ist. Ein Verschieben von Load5 vor Store1 ist sowieso nicht erlaubt, weil diese direkt zusammen hängen.
Mit der Memory-Disambiguation-Technologie analysiert die CPU anhand spezieller Algorithmen, ob Loads von vorhergehenden Stores unabhängig sind. Der Smart Memory Access der Core-Architektur entkoppelt damit Load- von Store-Vorgängen. Bei typischem x86-Code hängen dicht aufeinander folgende Store- und Load-Vorgänge überwiegend nicht zusammen. Die Memory Disambiguation sollte bei der Out-of-Order-Architektur der Core-Prozessoren somit eine deutlich gesteigerte Effizienz ermöglichen.
Ausgeführte "Disambiguated Loads" überprüft die Core-Architektur nach deren Ausführung auf die Datenkohärenz. War die Vorhersage falsch und ein Store-/Load-Vorgang hing voneinander ab, so wird die Pipeline "geflutet" und der komplette Vorgang wiederholt.
Das Verfahren der Memory Disambiguation verwendet Intel bereits bei der IA64-Architektur der Itanium-2-Prozessoren. Allerdings wird das Verfahren hier mit Unterstützung des Compilers erledigt, während die Core-Architektur die Memory Disambiguation im Silizium durchführt.
Intelligent Power Capability
Unter der Bezeichnung "Intelligent Power Capability" fasst Intel die Powermanagement-Features der Core-Mikroarchitektur zusammen. Einige Energiesparfunktionen verwendet Intel bereits beim Centrino-Prozessor Core Duo.
So schaltet die Core-Architektur wie der Core Duo inaktive Logik-Subsysteme komplett ab, wenn diese zur Befehlsabarbeitung kurzfristig nicht benötigt werden. Damit lässt sich Strom sparen. Das Ein- und Ausschalten der einzelnen Blöcke erledigt der Prozessor innerhalb eines Taktzyklus.
Um nicht zu überhitzen, integriert Intel bei den Core-Prozessoren mehrere digitale Temperatursensoren (DTS) an den Hotspots. Eine dedizierte Logik scannt die Sensoren und misst die maximale Temperatur auf dem Siliziumplättchen. Bei zu hoher Temperatur beginnt die CPU automatisch zu "throtteln" und reduziert die Taktfrequenz. Ist der Prozessor thermisch im grünen Bereich und nur mäßig ausgelastet, senkt die bekannte SpeedStep-Technologie bei den Core-Modellen die Taktfrequenz und Spannung dynamisch.
Bei der Core-Architektur lässt Intel auch die internen Datenbusse nicht außen vor und optimiert sie auf niedrigen Stromverbrauch. Deshalb werden nur die Stellen des Busses mit Strom versorgt, die diesen auch aktuell benötigen. Die volle Datenbreite der Datenbusse wird nicht bei allen Transaktionen ausgenutzt. Mit den "Split Busses" teilt sie Intel für den Transfer von verschiedenen Datenbreiten auf. Beispielsweise werden bei 64-Bit-Daten die Leitungen der höherwertigen 64 Bit nicht benötigt.
Auch die Buffer-Schaltungen des FSB besitzen eine hohe Leistungsaufnahme. Diese Schaltkreise konvertieren die Busspannungen in die vom Chip benötigten Spannungswerte. Die Core-Architektur versorgt wie bereits der Pentium M die Buffer dynamisch nur bei Bedarf und nicht ständig.
Conroe-Benchmarks
Bereits im März 2006 konnte tecCHANNEL auf dem Intel Developer Forum den Desktop-Core-Prozessor "Conroe" testen. Das Sample arbeitet mit 2,67 GHz Taktfrequenz und nimmt in einem Intel-Mainboard mit 975X-Express-Chipsatz Platz. Der Prozessorbus ist mit 1066 MHz getaktet. Als Speicher steht dem Conroe 1 GByte DDR2-667-SDRAM in einer Dual-Channel-Konfiguration mit einem 5-5-5-Timing zur Verfügung.
Als Vergleich für den Conroe 2,67 GHz dient AMDs Dual-Core-CPU Athlon 64 FX-60. Statt mit den serienmäßigen 2,6 GHz arbeitet der Socket-939-Prozessors mit übertakteten 2,8 GHz. Dem AMD64-Prozessor stand ebenfalls 1 GByte Arbeitsspeicher in einer Dual-Channel-DDR400-Konfiguration zur Verfügung. Als Speicher-Timing war 2-2-2 eingestellt.
Beiden Systemen stand als Grafik eine Crossfire-Lösung mit zwei ATI Radeon X1900XT zur Verfügung. Beachten Sie bei den Benchmark-Ergebnissen des Conroe und Athlon 64 FX, dass die Systeme von Intel aufgesetzt wurden. Sobald im tecCHANNEL-Testlabor eine Conroe-Plattform verfügbar ist, werden wir die Ergebnisse verifizieren.
F.E.A.R.
Der 3D-Shooter F.E.A.R. setzt auf DirectX 9 und nutzt die Features moderner Grafikkarten voll aus. Wir vergleichen die mittleren Frameraten bei den Auflösungen 640 x 480, 800 x 600 sowie 1280 x 960 Bildpunkten und jeweils 32 Bit Farbtiefe. Bei den Grafik-Einstellungen von F.E.A.R. wurde die mittlere Qualitätsstufe gewählt.
F.E.A.R. 640 x 480 x 32: Mit dem Conroe erreicht das Grafikkartendoppelpack eine 48 Prozent höhere mittlere Framerate als mit dem 2,8-GHz-Athlon.
F.E.A.R. 800 x 600 x 32: Auch bei dieser Auflösung behält der Conroe seine 48 Prozent höhere Performance noch bei - die Grafikkarten bremsen noch nicht.
F.E.A.R. 1280 x 960 x 32: Jetzt beginnen die Grafikkarten bereits zu limitieren. Trotzdem arbeitet Intels Conroe noch 16 Prozent schneller als der Athlon 64 FX-60, der auf 2,8 GHz übertaktet ist.
Quake 4
Die 3D-Engine des OpenGL-Shooters Quake 4 unterstützt Multithreading. Mit aktiviertem SMP vergleichen wir die Performance der CPUs bei einer Auflösung von 1024 x 768 Bildpunkten.
Der Conroe schießt seine Gegner 22 Prozent flinker ab als AMDs FX-Prozessor. Vor dem Conroe hatten die Intel-CPUs gegen AMD keine Chance.
Half Life 2
Beim 3D-Shooter Half Life 2 wählten wir die DirectX-Unterstützung für die Grafikkarten aus. Für die Ermittlung der mittleren Frameraten wurde die Timedemo "pbca_lost_coast" verwendet.
Der Conroe entlockt den Grafikkarten eine 23 Prozent höhere mittlere Framerate. Wie bei allen getesteten 3D-Spielen hat AMD das Nachsehen.
XMPEG 5.0
Mit XMPEG 5.0 vergleichen wir die Video-Encoding-Performance des Conroe mit dem Atlhon 64 FX. XMPEG wandelte in diesem Test ein MPEG2-Video in das DivX-Format um.
Das Rechenwerk des Conroe erledigt die Video-Umwandlung 33 Prozent schneller als AMDs Athlon 64 FX-60 mit seiner auf 2,8 GHz erhöhten Taktfrequenz.
Merom-Benchmarks
Die Mobile-CPU Merom arbeitet laut Intels Angaben beim SPECint_rate_base2000 um 20 Prozent schneller als ein Core Duo T2600 mit 2,16 GHz Taktfrequenz. Dabei soll Merom sich mit dem gleichen Energiebedarf zufrieden geben.
Zusätzlich präsentierte Intel auf dem Intel Developer im März 2006 ein Dell-Notebook, bei dem ein Core Duo durch einen Merom ausgetauscht wurde. Bei sonst unveränderter Hardware erreicht das Notebook mit dem Merom bei Quake 4 eine Frame-Rate von 134 - statt 106,6 fps mit dem Core Duo.
Woodcrest-Benchmarks
Der Server-/Workstation-Prozessor Woodcrest bietet laut Intel beim SPEC-Benchmark gegenüber einem Xeon 2,80 GHz "Paxville DP" mit Dual-Core-Technologie 80 Prozent mehr Performance. Der Energiebedarf soll auf einem 35 Prozent niedrigerem Niveau liegen - gegenüber den 135 Watt TDP des Xeon 2,80 GHz.
Die Monte-Carlo-Simulation führt das 3-GHz-Woodcrest-Doppelpack 44 Prozent schneller aus als zwei Opteron 280.
Zusätzlich vergleicht Intel die Performance zweier 3-GHz-Woodcrests gegen zwei Opteron 280. Die Woodcrest-Prozessoren arbeiten in einer Bensley-Plattform von HP und verfügen über einen FSB1333. Als Benchmark dient SunGards Adaptiv Credit Risk. Das Analysetool für den Finanzbereich basiert auf einer modifizierten Monte-Carlo-Simulationen.
Während das Woodcrest-Doppelpack 24,2 Sekunden für die Berechnung benötigt, ließen sich beiden Dual-Core-Opterons bei der IDF-Demonstration 34,8 Sekunden Zeit. Die Woodcrest-CPUs rechnen somit 44 Prozent schneller. Im tecCHANNEL-Testlabor arbeitet bei SunGard beispielsweise der Xeon "Dempsey" 3,46 GHz 24 Prozent schneller als der Opteron 280.
Fazit
Intel ist von seiner neuen Core-Architektur so überzeugt, dass sie in Notebooks, Desktop-PCs, Servern und Workstation alle vorhandenen Prozessoren sehr schnell verdrängen wird. Mit dem Core scheint Intel der Spagat zwischen hoher Performance und niedrigem Energiebedarf geglückt.
Besonders die ersten Benchmark-Werte des Conroe, Merom und Woodcrest lassen wenig Zweifel daran, wer künftig die Performance vorgibt - auch wenn die Ergebnisse an finalen CPUs noch zu verifizieren sind. Vor allem der Desktop-Prozessor Conroe konnte bei dem ersten Benchmark-Vergleich mit AMDs Athlon 64 FX nicht nur überzeugen, der große Abstand überrascht. So haben sich in der von AMD klassisch starken Domäne der 3D-Applikationen die Vorzeichen geändert.
Die von Intel propagierten "fünf Innovationen" der Core-Architektur scheinen in der Praxis somit Wirkung zu zeigen. Erfreulich sind dabei die deutlich gesunkenen TDP-Werte der neuen Core-Prozessoren - im Vergleich zu den 130 Watt einiger NetBurst-Modelle.
AMD muss sich bei dieser Steilvorlage mächtig ins Zeug legen. Ob der im zweiten Quartal 2006 erwartete Wechsel auf die DDR2-Speichertechnologie ebenfalls einen merklichen Performance-Schub erwirkt, bleibt fraglich. Allerdings sollte AMD nicht vorschnell unterschätzt werden, vielleicht warten ja auch die nächsten Athlon-64- und Opteron-CPUs mit überraschenden Innovationen auf.
Dieser Beitrag stammt von tecChannel.de, dem Webzine für technikorientierte Computer- und Kommunikationsprofis. Unter www.tecChannel.de finden Sie weitere Beiträge zu diesem Thema.