Technik & Know-how: Intels neue Core-Prozessoren - zurück an der Spitze

11.07.2006 von Christian Vilsbeck

Mit der neuen Mikroarchitektur „Core“ verspricht Intel bei den Prozessoren hohe Performance bei gleichzeitig niedrigem Energiebedarf. Wir erläutern die Architektur und zeigen erste Benchmarks.

Schon länger spielen Intels Prozessoren mit der NetBurst-Architektur die zweite Geige hinter den AMD64-CPUs. Der Athlon 64/X2 und Opteron sind dem Pentium 4/D und Xeon in der Performance meist einen kleinen Schritt voraus. Die NetBurst-Architektur – ausgelegt für hohe Taktfrequenzen – ist dem effizienteren AMD64-Design unterlegen.

Doch jetzt will Intel in Sachen Effizienz doppelt zurück schlagen. Höchste Performance ohne Gigahertzrekorde bei gleichzeitig deutlich reduziertem Energiebedarf. Die neue Architektur für dieses hehre Ziel nennt Intel schlicht „Core“. Sie stellt ein Mix aus den besten Komponenten der Core-Duo- und NetBurst-Architektur dar – mit Schwerpunkt auf dem Core-Duo-Design. Außerdem spendiert Intel der Core-Architektur fünf neue „Innovationen“: Wide Dynamic Execution, Advanced Digital Media Boost, Advanced Smart Cache, Smart Memory Access sowie Intelligent Power Capability.

Bereits im frühen dritten Quartal 2006 will Intel seinen ersten Desktop-Prozessor mit der neuen Core-Architektur vorstellen. Im Laufe des zweiten Halbjahres 2006 werden sukzessive auch die mobilen Centrino-CPUs Core Duo sowie die Xeons für Server und Workstations auf das Core-Design umgestellt. NetBurst hat ausgedient.

Doch was verbirgt sich hinter „Core“ sowie den „fünf Innovation“ und wie soll damit die AMD64-Architektur in die Schranken gewiesen werden? tecCHANNEL erläutert die Details der Core-Mikroarchitektur. Außerdem präsentieren wir Ihnen erste Benchmarks der Core-Prozessoren, wie beispielsweise den Conroe 2,67 GHz gegen AMDs Athlon 64 FX-60.

Core-CPUs: Conroe, Merom & Woodcrest

Intel setzt die Core-Mikroarchitektur in allen Segmenten ein. Für Desktop-PCs steht der Pentium-D-Nachfolger mit Code-Namen „Conroe“ auf dem Plan. Als Mobile-Pendant wird es für den aktuellen Core Duo den „Merom“ geben. Bei den Xeons integriert Intel im Dempsey-Erben „Woodcrest“ die neue Architektur.

Ähnlich wie AMD seine AMD64-Architektur im kompletten Produktportfolio verwendet, verfährt Intel jetzt mit Core. In naher Zukunft setzen bei Intel nur noch die Enterprise-Prozessoren der Itanium-2-Familie auf eine andere Architektur.

Premiere feiert die Core-Architektur im frühen dritten Quartal 2006 in den Desktop-CPUs „Conroe“. Vermutlich wird sich Intel vom Markennamen „Pentium“ verabschieden, allerdings fehlen hier noch offizielle Herstelleraussagen. Griffiger sind dagegen die zum Launch geplanten Prozessor-Nummern und Taktfrequenzen des Conroe – wie uns interne Roadmaps verraten: E6300 bis E6700 bei Taktfrequenzen von 1,86 bis 2,67 GHz. Dabei sind die Conroe-Prozessoren mit einem TDP-Wert von 65 Watt spezifiziert. Aktuelle Pentium-D-900-Modelle genehmigen sich einen TDP-Wert von bis zu 130 Watt. Platz nehmen die Conroe-CPUs für den LGA775-Steckplatz in den Plattformen Bridge Creek und Averill.

Ebenfalls im dritten Quartal 2006 gehen die Server-/Workstation-CPUs „Woodcrest“ mit einer Taktfrequenz von 3,0 GHz an den Start. Die Prozessoren für 2-Sockel-Systeme erhalten den LGA771-Steckplatz der Xeon-5000-Modelle "Dempsey". Intel garantiert eine Kompatibilität zur Bensley-Plattform. Woodcrest genehmigt sich laut Intel maximal 80 Watt. Zum Vergleich: Der 65-nm-NetBurst-Prozessor Xeon 5070 „Dempsey“ mit 3,46 GHz Taktfrequenz ist mit 130 Watt spezifiziert.

Auch der Core-Duo-Nachfolger „Merom“ soll mit der aktuellen Centrino-Plattform zusammen arbeiten. Merom ist Pin-kompatibel zum Core Duo und wird ab dem Launch-Datum in der zweiten Jahreshälfte 2006 in Notebooks Einzug erhalten. Durch die gleichen thermischen Anforderungen wie beim Core Duo sind für den Merom mit 35 Watt TDP am Notebook-Design keine Änderungen erforderlich. Merom setzt auf Intels aktuelle 945er Mobile-Chipsätze.

Komplettaustattung

Intel legt die Core-Architektur von Anfang an für die Dual-Core-Technologie aus. Beide Prozessorkerne sind auf einem Siliziumplättchen vereint und greifen auf einen gemeinsamen L2-Cache zurück. Die Größe der zweiten Pufferstufe legt Intel je nach CPU-Version auf 2 oder 4 MByte fest. Lesen Sie im Abschnitt „Advanced Smart Cache“ weitere Informationen über die L2-Cache-Technologie.

Der L1-Cache für Daten und Befehle fasst beim Core jeweils 16 KByte bei achtfach assoziativer Auslegung. Dem Core Duo stehen noch je 32 KByte L1-Cache zur Verfügung. Ein Trace-Cache der NetBurst-Architektur, der bereits dekodierte Micro-Ops speichert, ist beim Core-Design passé.

Eine weiteres Merkmal von NetBurst man bei der Core-Architektur vergeblich: Die Hyper-Threading-Technologie wird bei den Core-Prozessoren nicht mehr benötigt. Durch sein effizienteres Design sind bei der Core-Architektur die Ausführungseinheiten besser ausgelastet als bei NetBurst. Technisch wäre die Realisierung von Hyper-Threading in der Core-Architektur laut Intel allerdings möglich.

Pflicht für eine neue CPU-Architektur ist dagegen die 64-Bit-Erweiterung EM64T. Die Core-Prozessoren arbeiten mit 64-Bit-Betriebssystemen zusammen, was dem bisherigen Pentium M und Core Duo verwehrt ist. Für die Virtualisierung der CPU beherrscht die Core-Architektur zudem den VT-x-Befehlssatz der Vanderpool-Technologie. Je nach Prozessortyp gibt es beim Core erste LaGrande-Implementierungen für Trusted Computing. Ein Standard-Feature bei allen Core-Modellen ist die XD-Technologie für erweiterten Schutz vor Viren und Buffer Overflows.

Die Kommunikation der Core-CPUs mit dem Chipsatz erledigt weiterhin ein „klassischer“ Prozessorbus. Dieser arbeitet beim mobilen Merom mit einer Taktfrequenz von 667 MHz. Der Desktop-Prozessor Conroe überträgt seine Daten über den Bus mit 1.066 MHz. Etwas mehr gibt es beim Woodcrest: Die FSB-Taktfrequenz erreicht auf der Bensley-Plattform 1.333 MHz.

Intel fertigt die erste Core-Generation in einem 65-nm-Prozess. Anfang 2007 werden bereits Core-CPUs mit 45 nm Strukturbreite erwartet.

Wide Dynamic Execution

Ein Ziel bei der Entwicklung der Core-Architektur war es, mehr Befehle gleichzeitig pro Taktzyklus abarbeiten zu können. Dies erhöht nicht nur die Performance eines Prozessors, sondern sorgt auch für eine bessere Energieeffizienz.

Hinter dem Begriff „Wide Dynamic Execution“ verbirgt sich zuerst einmal eine klassische Out-of-Order-Architektur nach dem spekulativen Verfahren. Out-of-Order heißt, die CPU arbeitet die Befehle in einer „optimierten“ Reihenfolge ab, und nicht in der eingelesenen. Dies ermöglicht eine bessere Auslastung der Funktionseinheiten der CPU. Dabei führt der Prozessor Instruktionen auch „spekulativ“ durch, in der Hoffnung, die Ergebnisse werden demnächst sowieso benötigt. Diese Hoffnungen beruhen natürlich auf einer in der CPU durchgeführten Datenfluss-Analyse.

Ein Unterschied der Core-Architektur zu NetBurst und dem Core-Duo-Design liegt in der Bezeichnung „Wide“. Intels Core verarbeitet pro Taktzyklus vier Instruktionen. Dabei kann die CPU pro Taktzyklus mindestens vier Befehle gleichzeitig holen, dekodieren, ausführen und die Ergebnisse in den L1-Daten-Cache übertragen. Die Core-Architektur ist somit vierfach superskalar ausgelegt. Damit sind Core-CPUs der NetBurst-Architektur des Pentium D oder Xeon sowie dem Pentium-M-basierenden Core Duo klar überlegen. Diese CPUs können nur drei Instruktionen pro Taktzyklus parallel durchführen.

Gekürzte Pipeline

Die Pipeline der Core-Architektur ist mit 14 Stufen deutlich kürzer ausgelegt als bei aktuellen NetBurst-CPUs mit 31 Stufen. Die Anzahl der Stufen bezeichnet die notwendigen Schritte bei der Abarbeitung von Befehlen: beginnend mit dem Einlesen einer neuen Instruktion in die CPU bis zur Ausgabe des Ergebnisses.

Kürzere Pipelines zeugen meist von einem effizienteren CPU-Design. Beispielsweise kosten falsche spekulative Sprungvorhersagen weniger Taktzyklen für das erneute „richtige“ Ausführen. Allerdings ermöglichen längere Pipelines auch höhere Taktfrequenzen und ein damit besseres Skalieren der Performance. Denn mit mehr Stufen kann eine CPU auch mehr Befehle gleichzeitig „in flight“ halten – abhängig natürlich von der superskalaren Auslegung.

Entscheidend für ein superskalares Design ist die Anzahl der Ausführungseinheiten. Core besitzt drei 64-Bit-ALUs für Integer-Operationen, drei 128-Bit-SSE-Units sowie zwei 128-Bit-Floating-Point-Rechenwerke. Außerdem gibt es noch eine Load- und Store-Unit. Damit macht Intel die Core-Architektur fit für eine massive Parallelisierung.

Doch besonders bei der SSE-Befehlsabarbeitung zeigt die Core-Architektur deutliche Fortschritte, wie Sie im Abschnitt „Digital Media Boost“ nachlesen können. Zur „Wide Dynamic Execution“ zählen zudem Verbesserungen im Frontend sowie die neue Macro-Fusion, wie wir auf den folgenden Seiten erläutern.

Erweitertes Frontend

Um das vierfach superskalare Design und die vielen Ausführungseinheiten der Core-Architektur bei Laune zu halten bedarf es effektiver Befehlsdekoder sowie einer guten Sprungvorhersage (Branch Prediction). In beiden Fällen wartet die Core-Architektur mit Verbesserungen auf. Außerdem verfügen beide Prozessorkerne des Core jeweils über drei individuelle Prefetcher: zwei für Daten, einer für Befehle. Die Prefetcher holen basierend auf einer Workflow-Analyse Daten und Befehle in die CPU, die voraussichtlich als nächstes benötigt werden.

Die Ausführungseinheiten aktueller Prozessoren sind über ein Viertel ihrer Zeit mit Befehlswiederholungen durch falsche Sprungvorhersagen beschäftigt. Dies kostet nicht nur Performance, weil die CPU die korrekte Sprungadresse aus dem Speicher holen muss. Gleichzeitig steigt durch die Befehlswiederholung der Stromverbrauch. Deshalb hat Intel bei der Core-Architektur viel Wert auf optimierte Sprungvorhersagen gelegt.

Die Sprungvorhersage des Core-Prozessors analysiert die vergangene Programmausführung und sagt darauf basierend voraus, welche Operationen nach einem Sprung wahrscheinlich als Nächstes ausgeführt und welche Daten benötigt werden. Intel hat bei der Core-Architektur drei verschiedene Logiken zur Sprungvorhersage kombiniert: bimodal, local und global. Diese Triple-Logik führte Intel bereits beim ersten Pentium M „Banias“ ein.

Core verwendet zusätzlich mit dem Loop Detector LD sowie dem Indirect Branch Predictor IBP zwei weitere Vorhersagelogiken. Während der LD den Aussprung aus Programmschleifen vorhersagt, speichert der IBP in einer Tabelle bevorzugte Zieladressen von indirekten Sprüngen. Wenn somit das Frontend der CPU einen indirekten Sprung vorhersagt und ausführt, kann aus der IBP-Tabelle die Adresse entnommen werden.

Neben der verbesserten Sprungvorhersage wartet die Core-Architektur mit neuen Befehlsdekodern auf. Die Dekoder wandeln die herkömmlichen x86-Befehle (Macro-Ops) in vom Prozessor verständliche Micro-Ops um. Insgesamt besitzt Core vier Dekoder-Einheiten. Damit dekodiert die CPU mindestens vier Instruktionen pro Taktzyklus, was der vierfach superskalaren Auslegung der Core-Architektur entspricht. „Mindestens“ vier Stück, weil sich die vier Dekoder aus drei einfachen und einer komplexen Einheit zusammensetzen.

Die komplexe Dekodiereinheit erläutern wir ausführlicher im Abschnitt „Macro-Fusion“, welche eine weitere Neuerung der Core-Architektur darstellt.

Micro-Ops-Fusion

Ein superskalares Prozessor-Design zum parallelen Abarbeiten von Befehlen ist nicht neu. Hierzu bedarf es vereinfacht ausgedrückt „nur“ der bereits erwähnten parallelen Ausführungseinheiten. So erlaubt die Core-Architektur bereits vier Instruktionen pro Taktzyklus. Um aber die Performance pro Taktzyklus weiter zu steigern, verwendet Intel Techniken zur Reduzierung von Micro-Ops.

Die Core-Architektur vereinfacht die komplizierte Verwaltung der Micro-Ops im Re-Order-Buffer und den Schedulern durch die Micro-Ops-Fusion. Die erstmals beim Pentium M „Banias“ verwendete Micro-Ops-Fusion-Technologie analysiert die Instruktionen des Programmablaufs. Wenn sich mehrere aus einer Macro-Op dekodierte Micro-Ops zusammenfassen lassen, werden sie zu einer neuen Micro-Op verschmolzen.

Die Effizienz der Befehlsabarbeitung erhöht sich durch dieses Verfahren, weil der Scheduler weniger Einträge verwalten muss. Diese „Befehlsreduzierung“ vor den Ausführungseinheiten steigert aber nicht nur die Performance, sondern reduziert gleichzeitig den Energiebedarf der Scheduler-Einheit. Durch die Micro-Ops-Fusion-Technologie muss der Core-Prozessor laut Intel mehr als zehn Prozent weniger Micro-Ops in den Ausführungseinheiten berechnen. Bei der Core-Architektur erweitert Intel zudem die Anzahl von fusionierbaren Micro-Ops.

Um die Zahl der MicroOps weiter zu verringern, gibt es seit der Pentium-M-Architektur „Banias“ einen dedizierten Ablaufmanager. Programm-Overhead wie die Stack-Befehle push, pop, call und ret führt der Prozessor in einer dedizierten Hardware durch. Die CPU kann das eigentliche Programm in den Ausführungseinheiten damit ohne Unterbrechung abarbeiten. Die Zahl der Micro-Ops verringert sich durch den Stack Manager laut Intel um fünf Prozent.

Macro-Fusion

Neben der vom Pentium M bekannten Micro-Ops-Fusion führt Intel bei der Core-Architektur die neue Macro-Fusion ein. Bei der Macro-Fusion geht Intel im Vergleich zur Micro-Ops-Fusion einen anderen Weg. In der Pre-Dekodierphase analysiert das Frontend der Core-Architektur, ob sich zwei in der Regel aufeinander folgende Macro-Ops zusammenfassen lassen. So folgt auf den Assembler-Befehl „cmp“ (Compare) oder „test“ typischerweise ein Sprungbefehl „jcc“, wie Intel angibt.

Die komplexe Dekodiereinheit der vier Dekoder fügt diese beiden Macro-Ops zu einer einzigen Micro-Op zusammen. Diese Micro-Op führen die Execution-Units der Core-Architektur dann in einem Taktzyklus durch.

Durch die Macro-Fusion kann das Frontend der Core-Architektur aus dem Befehlspuffer (L1-Befehls-Cache) bis zu fünf Instruktionen pro Taktzyklus holen. Drei Macro-Ops dekodieren die drei einfachen Dekoder-Units. Sind von den fünf Macro-Ops zwei fusionierbar, werden sie über die komplexe Dekodiereinheit per Macro-Fusion in eine Micro-Op umgewandelt. Ohne Macro-Fusion wären für das Dekodieren von fünf Assembler-Befehlen zwei Taktzyklen notwendig. Pro Taktzyklus ist bei der Core-Architektur allerdings nur eine Macro-Fusion möglich.

Für das Ausführen der aus Macro-Fusion entstandenen neuen Micro-Ops verfügt die Core-Architektur über eine speziell angepasste ALU.

Durch die Macro-Fusion reduziert sich wie schon bei der Micro-Ops-Fusion die Zahl der auszuführenden Micro-Ops. Dadurch wird zum einem die Performance weiter gesteigert. Außerdem erhöht sich die Effizient des Out-of-Order-Schedulers, weil durch die reduzierte Micro-Ops-Anzahl mehr Programm-Code auf einmal analysiert und parallelisiert werden kann.

Advanced Digital Media Boost

Mit „Advanced Digital Media Boost“ will Intel bei der Core-Architektur für eine signifikante Beschleunigung von SSE-Instruktionen sorgen.

Bei NetBurst und dem Core-Duo-Design wird eine 128 Bit breite SSE-Instruktion beim Dekodieren in zwei 64-Bit-Micro-Ops aufgeteilt. Der Datenpfad in die SSE-Execution-Unit besitzt ebenfalls eine Datenbreite von nur 64 Bit. Somit werden für die Ausführung eines 128-Bit-SSE-Befehls zwei Taktzyklen benötigt: Zuerst findet die Berechnung der minderwertigen 64 Bit statt, es folgen im zweiten Taktzyklus die höherwertigen 64 Bit.

Die Core-Architektur besitzt dagegen einen durchgehenden 128-Bit-Ausführungspfad. Intel legt die internen Datenbusse hierfür 128 Bit breit aus. Damit muss nur ein einziger Micro-Op erzeugt, geordnet und ausgeführt werden. Die Berechnung eines SSE-Befehls in der entsprechenden Ausführungseinheit erfolgt in einem Taktzyklus. Damit verdoppelt sich die SSE-Performance. Beispielsweise kann Core auch einen 128-Bit Packet Multiply, 128-Bit Packed Add, 128-Bit Packet Load, 128-Bit Packed Store und einen Macro-Fusion-Befehl „cmp & jcc“ zusammen in einem Taktzyklus berechnen.

Durch die SSE-Ausführung in einem Taktzyklus entlastet die Core-Architektur zudem die Load-Pipeline. Bei Mikroarchitekturen, wo der interne 128-Bit-Pfad bei den SSE-Ausführungseinheiten nur noch 64 Bit breit ist, kann es hier zu Engpässen führen.

Die Core-Architektur beherrscht neben MMX, SSE, SSE2 und SSE3 zusätzlich 16 neue Multimedia-Befehle. Die mancherorts als SSE4 bezeichneten Instruktionen sind vor allem für Berchnungen mit doppelter Genauigkeit hilfreich. Ob die Zusatzbefehle einen neuen Namen erhalten, oder sie in der Bezeichnung „Advanced Digital Media Boost“ eingehen, lässt Intel noch offen. Ursprünglich waren die neuen Multimedia-Befehle für den eingestellten NetBurst-Nachfolger mit Code-Namen Tejas vorgesehen.

Advanced Smart Cache

Der „Smart Cache“ ist bereits aus dem Core Duo bekannt. Beide Prozessorkerne teilen sich dynamisch einen gemeinsamen L2-Cache. Bei der Core-Architektur verdoppelte Intel allerdings die Bandbreite zum L1-Cache.

Dieser „Advanced Smart Cache“ des Core besteht aus einer 2 oder 4 MByte großen zweiten Pufferstufe – je nach Prozessortyp. Der Vorteil von einem Shared Cache ist unter anderem eine bessere Auslastung. Arbeitet beispielsweise nur ein Prozessorkern, so steht diesem der gesamte Cache zur Verfügung. Bei der Dual-Core-Technologie des Pentium D und Xeons besitzt jeder Kern seinen eigenen L2-Cache. Die Cache-Auslastung ist bei diesen CPU ineffektiver, wenn nicht beide Cores unter Last sind.

Ein weiterer Vorteil des Advanced Smart Cache ist das Data-Sharing zwischen den CPU-Kernen. Benötigt der zweite Kern die Daten, die der erste schon aus dem Speicher geholt hat, so findet er diese bereits im L2-Cache vor. Dadurch wird die Prozessorbus-Auslastung minimiert. Auch die zu bewerkstelligende Cache-Koheränz bei eigenen L2-Caches pro Prozessorkern ist mit dem Smart Cache obsolet.

Weiterhin kann Intel bei der Core-Architektur Daten zwischen den L1-Daten-Caches der zwei Kerne direkt austauschen. Detaillierte Informationen zu dieser Technik stehen vom Hersteller allerdings noch aus.

Neben den zwei Daten- und einem Befehls-Prefetcher pro Prozessorkern besitzt die Core-Architektur zwei Prefetcher im L2-Cache. Diese suchen beispielsweise nach mehrfach vorhandenen Datenmustern pro Core. Außerdem gibt der Smart Cache so genannte „mismatched loads“ – vorab mit falschen Daten geladene Cache-Lines - automatische wieder frei. Damit steht beiden Kernen immer möglichst viel Speicherplatz im L2-Cache zur Verfügung.

Smart Memory Access

Mit Smart Memory Access führt Intel einen Advanced Prefetch-Mechanismus für den Speicherzugriff ein. Die Core-Mikroarchitektur verbessert damit das Load-/Store-Handling beim Zugriff auf den Arbeitsspeicher. Intel will damit Latenzzeiten „verstecken“, indem die CPU Daten bereits spekulativ im Cache hält. Damit soll der Nachteil des externen Speicher-Controllers zumindest teilweise überwunden werden.

Der Smart Memory Access setzt sich dabei aus den Improved Prefetchers sowie der Memory Disambiguation zusammen. Bei einer Out-of-Order-Architektur führt der Prozessor die Instruktionen in einer optimierten, und nicht in der eingehenden Reihenfolge durch. Beim Speicherzugriff kann dies aber zu Problemen führen. Beispielsweise speichert ein Store1-Befehl Daten bei der Speicheradresse F000h. Fünf Befehle später liest die CPU einen Load5-Befehl für diese Adresse ein.

Dazwischen gibt es aber einen zweiten Speicherbefehle Store2 mit noch unbekannter und erst zur Laufzeit generierter Speicheradresse. Würde jetzt durch das Out-of-Order-Verfahren der Load5-Befehl durch die Optimierung vor dem Store2 ausgeführt werden, so liest der Prozessor eventuell die falschen Daten ein. Demnach darf ein Load-Befehl nicht vor dem Store erfolgen, wenn die Adresse des Load-Befehls noch nicht bekannt ist. Ein Verschieben von Load5 vor Store1 ist sowieso nicht erlaubt, weil diese direkt zusammen hängen.

Mit der Memory-Disambiguation-Technologie analysiert die CPU anhand spezieller Algorithmen, ob Loads von vorhergehenden Stores unabhängig sind. Der Smart Memory Access der Core-Architektur entkoppelt damit Load- von Store-Vorgängen. Bei typischem x86-Code hängen dicht aufeinander folgende Store- und Load-Vorgänge überwiegend nicht zusammen. Die Memory Disambiguation sollte bei der Out-of-Order-Architektur der Core-Prozessoren somit eine deutlich gesteigerte Effizienz ermöglichen.

Ausgeführte „Disambiguated Loads“ überprüft die Core-Architektur nach deren Ausführung auf die Datenkoheränz. War die Vorhersage falsch und ein Store-/Load-Vorgang hing voneinander ab, so wird die Pipeline „geflutet“ und der komplette Vorgang wiederholt.

Das Verfahren der Memory Disambiguation verwendet Intel bereits bei der IA64-Architektur der Itanium-2-Prozessoren. Allerdings wird das Verfahren hier mit Unterstützung des Compilers erledigt, während die Core-Architektur die Memory Disambiguation im Silizium durchführt.

Intelligent Power Capability

Unter der Bezeichnung „Intelligent Power Capability“ fasst Intel die Powermanagement-Features der Core-Mikroarchitektur zusammen. Einige Energiesparfunktionen verwendet Intel bereits beim Centrino-Prozessor Core Duo.

So schaltet die Core-Architektur wie der Core Duo inaktive Logik-Subsysteme komplett ab, wenn diese zur Befehlsabarbeitung kurzfristig nicht benötigt werden. Damit lässt sich Strom sparen. Das Ein- und Ausschalten der einzelnen Blöcke erledigt der Prozessor innerhalb eines Taktzyklus.

Um nicht zu überhitzen, integriert Intel bei den Core-Prozessoren mehrere digitale Temperatursensoren (DTS) an den Hotspots. Eine dedizierte Logik scannt die Sensoren und misst die maximale Temperatur auf dem Siliziumplättchen. Bei zu hoher Temperatur beginnt die CPU automatisch zu „throtteln“ und reduziert die Taktfrequenz. Ist der Prozessor thermisch im grünen Bereich und nur mäßig ausgelastet, senkt die bekannte SpeedStep-Technologie bei den Core-Modellen die Taktfrequenz und Spannung dynamisch.

Bei der Core-Architektur lässt Intel auch die internen Datenbusse nicht außen vor und optimiert sie auf niedrigen Stromverbrauch. Deshalb werden nur die Stellen des Busses mit Strom versorgt, die diesen auch aktuell benötigen. Die volle Datenbreite der Datenbusse wird nicht bei allen Transaktionen ausgenutzt. Mit den „Split Busses“ teilt sie Intel für den Transfer von verschiedenen Datenbreiten auf. Beispielsweise werden bei 64-Bit-Daten die Leitungen der höherwertigen 64 Bit nicht benötigt.

Auch die Buffer-Schaltungen des FSB besitzen eine hohe Leistungsaufnahme. Diese Schaltkreise konvertieren die Busspannungen in die vom Chip benötigten Spannungswerte. Die Core-Architektur versorgt wie bereits der Pentium M die Buffer dynamisch nur bei Bedarf und nicht ständig.

Conroe-Benchmarks

Bereits im März 2006 konnte tecCHANNEL auf dem Intel Developer Forum den Desktop-Core-Prozessor „Conroe“ testen. Das Sample arbeitet mit 2,67 GHz Taktfrequenz und nimmt in einem Intel-Mainboard mit 975X-Express-Chipsatz Platz. Der Prozessorbus ist mit 1066 MHz getaktet. Als Speicher steht dem Conroe 1 GByte DDR2-667-SDRAM in einer Dual-Channel-Konfiguration mit einem 5-5-5-Timing zur Verfügung.

Als Vergleich für den Conroe 2,67 GHz dient AMDs Dual-Core-CPU Athlon 64 FX-60. Statt mit den serienmäßigen 2,6 GHz arbeitet der Socket-939-Prozessors mit übertakteten 2,8 GHz. Dem AMD64-Prozessor stand ebenfalls 1 GByte Arbeitsspeicher in einer Dual-Channel-DDR400-Konfiguration zur Verfügung. Als Speicher-Timing war 2-2-2 eingestellt.

Beiden Systemen stand als Grafik eine Crossfire-Lösung mit zwei ATI Radeon X1900XT zur Verfügung. Beachten Sie bei den Benchmark-Ergebnissen des Conroe und Athlon 64 FX, dass die Systeme von Intel aufgesetzt wurden. Sobald im tecCHANNEL-Testlabor eine Conroe-Plattform verfügbar ist, werden wir die Ergebnisse verifizieren.

F.E.A.R.

Der 3D-Shooter F.E.A.R. setzt auf DirectX 9 und nutzt die Features moderner Grafikkarten voll aus. Wir vergleichen die mittleren Frameraten bei den Auflösungen 640 x 480, 800 x 600 sowie 1280 x 960 Bildpunkten und jeweils 32 Bit Farbtiefe. Bei den Grafik-Einstellungen von F.E.A.R. wurde die mittlere Qualitätsstufe gewählt.

Quake 4

Die 3D-Engine des OpenGL-Shooters Quake 4 unterstützt Multithreading. Mit aktiviertem SMP vergleichen wir die Performance der CPUs bei einer Auflösung von 1024 x 768 Bildpunkten.

Half Life 2

Beim 3D-Shooter Half Life 2 wählten wir die DirectX-Unterstützung für die Grafikkarten aus. Für die Ermittlung der mittleren Frameraten wurde die Timedemo „pbca_lost_coast“ verwendet.

XMPEG 5.0

Mit XMPEG 5.0 vergleichen wir die Video-Encoding-Performance des Conroe mit dem Atlhon 64 FX. XMPEG wandelte in diesem Test ein MPEG2-Video in das DivX-Format um.

Merom-Benchmarks

Die Mobile-CPU Merom arbeitet laut Intels Angaben beim SPECint_rate_base2000 um 20 Prozent schneller als ein Core Duo T2600 mit 2,16 GHz Taktfrequenz. Dabei soll Merom sich mit dem gleichen Energiebedarf zufrieden geben.

Zusätzlich präsentierte Intel auf dem Intel Developer im März 2006 ein Dell-Notebook, bei dem ein Core Duo durch einen Merom ausgetauscht wurde. Bei sonst unveränderter Hardware erreicht das Notebook mit dem Merom bei Quake 4 eine Frame-Rate von 134 – statt 106,6 fps mit dem Core Duo.

Woodcrest-Benchmarks

Der Server-/Workstation-Prozessor Woodcrest bietet laut Intel beim SPEC-Benchmark gegenüber einem Xeon 2,80 GHz „Paxville DP“ mit Dual-Core-Technologie 80 Prozent mehr Performance. Der Energiebedarf soll auf einem 35 Prozent niedrigerem Niveau liegen – gegenüber den 135 Watt TDP des Xeon 2,80 GHz.

Zusätzlich vergleicht Intel die Performance zweier 3-GHz-Woodcrests gegen zwei Opteron 280. Die Woodcrest-Prozessoren arbeiten in einer Bensley-Plattform von HP und verfügen über einen FSB1333. Als Benchmark dient SunGards Adaptiv Credit Risk. Das Analysetool für den Finanzbereich basiert auf einer modifizierten Monte-Carlo-Simulationen.

Während das Woodcrest-Doppelpack 24,2 Sekunden für die Berechnung benötigt, ließen sich beiden Dual-Core-Opterons bei der IDF-Demonstration 34,8 Sekunden Zeit. Die Woodcrest-CPUs rechnen somit 44 Prozent schneller. Im tecCHANNEL-Testlabor arbeitet bei SunGard beispielsweise der Xeon „Dempsey“ 3,46 GHz 24 Prozent schneller als der Opteron 280.

Fazit

Intel ist von seiner neuen Core-Architektur so überzeugt, dass sie in Notebooks, Desktop-PCs, Servern und Workstation alle vorhandenen Prozessoren sehr schnell verdrängen wird. Mit dem Core scheint Intel der Spagat zwischen hoher Performance und niedrigem Energiebedarf geglückt.

Besonders die ersten Benchmark-Werte des Conroe, Merom und Woodcrest lassen wenig Zweifel daran, wer künftig die Performance vorgibt - auch wenn die Ergebnisse an finalen CPUs noch zu verifizieren sind. Vor allem der Desktop-Prozessor Conroe konnte bei dem ersten Benchmark-Vergleich mit AMDs Athlon 64 FX nicht nur überzeugen, der große Abstand überrascht. So haben sich in der von AMD klassisch starken Domäne der 3D-Applikationen die Vorzeichen geändert.

Die von Intel propagierten „fünf Innovationen“ der Core-Architektur scheinen in der Praxis somit Wirkung zu zeigen. Erfreulich sind dabei die deutlich gesunkenen TDP-Werte der neuen Core-Prozessoren – im Vergleich zu den 130 Watt einiger NetBurst-Modelle.

AMD muss sich bei dieser Steilvorlage mächtig ins Zeug legen. Ob der im zweiten Quartal 2006 erwartete Wechsel auf die DDR2-Speichertechnologie ebenfalls einen merklichen Performance-Schub erwirkt, bleibt fraglich. Allerdings sollte AMD nicht vorschnell unterschätzt werden, vielleicht warten ja auch die nächsten Athlon-64- und Opteron-CPUs mit überraschenden Innovationen auf. (Christian Vilsbeck, tecChannel.de/tö)