Quad Cores für Server

Test: AMD Opteron versus Intel Xeon

14.12.2007 von tec tec, Christian Vilsbeck und Christian Vilsbeck

Intels Server-CPU "Xeon 5400 Harpertown" ist der erste Prozessor mit der neuen 45-nm-Penryn-Architektur. Der Quad Core soll mit bis zu 3,2 GHz, 12 MB L2-Cache, SSE4 und FSB1600 den K10-Opteron von AMD auf Distanz halten.

Von Christian Vilsbeck, TecChannel

Testbericht

Intels 5300er Quad-Core-Xeons hatten in Systemen mit einem oder zwei Prozessoren seit ihrer Vorstellung im November 2006 leichtes Spiel. Der per se bekanntermaßen schnellen Core-Architektur konnte AMD mit den K8-Opterons nur noch wenig entgegensetzen. Vor allem fehlte es dem Intel-Konkurrent lange an Quad-Core-Opterons.

Doch seit 10. September 2007 ist AMD mit einem Schlag wieder konkurrenzfähig. Die neue K10-Architektur merzt Schwachstellen bisheriger Opterons aus. Besonders in speicherintensiven Anwendungen setzen die K10-Quad-Core-Opterons mit nur 2,0 GHz Taktfrequenz sogar Intels bisherige 3,0-GHz-Xeons auf 65-nm-Basis zu. Hier offenbaren sich die Schwächen des Intel-Konzepts. Im 2-Sockel-Betrieb überfordern die vier Kerne pro CPU bereits den FSB1333, und der 8 MByte L2-Cache „weiß nicht mehr“, welche Daten er nun halten soll.

Xeon E5472 „Harpertown“: Der Quad-Core-Prozessor für den Sockel LGA771 setzt auf Intels 45-nm-Penryn-Architektur. Die 3,0-GHz-CPU besitzt 12 MByte L2-Cache und arbeitet mit einem FSB1600.

Um auch in sehr speicherintensiven Szenarien wie Virtualisierung oder aufwändigen HPC-Anwendungen eine führende Performance bieten zu können, peppt Intel seine Xeons gehörig auf. Die neue 45-nm-Penryn-Architektur soll Schwachpunkte ausmerzen und neue Akzente setzen. Dringend notewendig ist ein schnellerer Prozessorbus, statt mit 1333 arbeitet die Xeon-5400-Serie „Harpertown“ mit 1600 MHz. Und der L2-Cache der Quad-Core-CPU wurde von 8 auf 12 MByte aufgestockt.

Fließkommaberechnungen soll der neue SSE4-Befehlssatz gehörig auf die Sprünge helfen. Und Architekturfeinschliff wie Fast Radix-16 und Super Shuffle lassen der CPU Zahlenspiele noch einfacher von der Hand gehen lassen. Zu guter letzt bietet Intel die neue Xeon-5400-Serie zum Launch mit bis zu 3,2 GHz Taktfrequenz an.

Im TecChannel-Testlabor testen wir Intels neuen Xeon E5472 „Harpertown“ mit 3,0 GHz Taktfrequenz. Wir vergleichen die 45-nm-CPU im 2-Sockel-Betrieb gegen das bisherige ebenfalls mit 3,0 GHz arbeitende Topmodell Xeon X5365 – die Unterschiede werden deutlich. Außerdem zeigen wir im Vergleich die Performance von AMDs Quad-Core-Opterons.

Details zum Quad-Core-Xeon „Harpertown“

Intel bietet die Penryn-Architektur in den Quad-Core-Xeon-Prozessoren mit Taktfrequenzen bis 3,2 GHz und einen von 1333 auf 1600 MHz erhöhten FSB anbieten. Die Penryn-Quad-Core-Xeons mit dem Code-Namen „Harpertown“ gibt es zum Start in Versionen mit 80, 120 und 150 Watt TDP. Dual-Core-Penryn-Xeons „Wolfdale DP“ spezifiziert Intel mit 65 und 80 Watt TDP. Die Harpertown-CPUs gehen als Xeon-5400-Serie an den Start. Für die 45-nm-Dual-Core-Varianten reserviert Intel die 5200er Prozessornummern.

Zweimal mal zwei: Intel baut seine zweite Quad-Core-Generation ebenfalls aus zwei Dual-Core-Siliziumplättchen auf. Je zwei Kernen stehen 6 MByte L2-Cache zur Verfügung. (Quelle: Intel)

Beim Xeon 5400 platziert Intel weiterhin zwei Dual-Core-Siliziumplättchen in einem Gehäuse. Jedem Dual-Core-Die steht ein von 4 auf 6 MByte vergrößerter L2-Cache zur Verfügung. Insgesamt besitzt der 45-nm-Quad-Core-Xeon nun 12 MByte L2-Cache. Ein Xeon 5400 ist aus 820 Millionen Transistoren aufgebaut. Intels 65-nm-Xeon „Clovertown“ mit 8 MByte L2-Cache begnügt sich noch mit 681 Millionen Transistoren. Die Die-Fläche des Harpertown schrumpfte dagegen: Pro Dual-Core-Die sind 107 mm² notwendig, beim Clovertown sind es trotz weniger Cache noch 143 mm².

Neben der Strukturbreite von 45 nm und dem größerem Cache zählt der neue SSE4-Befehlssatz zur auffälligsten Neuerung des Xeon Harpertown. Die insgesamt 47 neuen Befehle sollen vektorbasierende Compiler, Enkodieren von Videos, Bildverarbeitung, Spiele, Textverarbeitung sowie Serverapplikationen beschleunigen.

Architekturerweitungen wie Super Shuffle für SSE-Daten sowie der Fast Radix-16 Divider sollen für ein zusätzliches Geschwindigkeitsplus sorgen.

Größenvergleich: Trotz fast doppelter Transistoranzahl benötigt der 45-nm-Harpertown insgesamt weniger als die halbe Siliziumfläche im Vergleich zu AMDs Quad-Core-Opteron. (Quelle: Intel)

Alle Details zur 45-nm-Penryn-Architektur lesen Sie bei TecChannel im Artikel AMD-K10-Gegener: Intels 45-nm-Penryn-CPUs mit SSE4.

45-nm-Xeon-Modelle im Überblick

Intel bietet die Penryn-Architektur in den Quad-Core-Xeon-Prozessoren zum Start mit Taktfrequenzen von 2,0 bis 3,2 GHz an. Die Modelle Xeon E5405 (2,0 GHz) bis E5450 (3,0 GHz) arbeiten mit einem FSB1333. Beim Xeon E5462 bis X5482 kennzeichnet die „2“ am Ende der Modellnummer den schnelleren FSB1600.

Die zum Start verfügbaren Dual-Core-Penryn-Xeons „Wolfdale DP“ spezifiziert Intel mit zu 65 und 80 Watt TDP. Als Einstiegsmodell fungiert der Xeon E5205 mit 1,86 GHz Taktfrequenz und einem FSB1066. Als schnellster Wolfdale DP preist Intel den Xeon X5272 mit 3,40 GHz Taktfrequenz und FSB1600 an. Allen Zweikernern gemein sind ein 6 MByte großer L2-Cache sowie der gewohnte LGA771-Steckplatz.

In der Tabelle finden Sie alle von Intel am 11. November 2007 vorgestellten neuen Xeon-Prozessoren mit Penryn-Architektur:

Intels neue 45-nm-Xeons im Überblick
Prozessor	Taktfrequenz [GHz]	FSB [MHz]	L2-Cache	Kerne	TDP [Watt]
Xeon X5482	3,20	1600	2 x 6 MByte	4	150
Xeon X5472	3,00	1600	2 x 6 MByte	4	120
Xeon E5472	3,00	1600	2 x 6 MByte	4	80
Xeon E5462	2,80	1600	2 x 6 MByte	4	80
Xeon X5460	3,16	1333	2 x 6 MByte	4	120
Xeon X5450	3,00	1333	2 x 6 MByte	4	120
Xeon E5450	3,00	1333	2 x 6 MByte	4	80
Xeon E5440	2,83	1333	2 x 6 MByte	4	80
Xeon E5430	2,66	1333	2 x 6 MByte	4	80
Xeon E5420	2,50	1333	2 x 6 MByte	4	80
Xeon E5410	2,33	1333	2 x 6 MByte	4	80
Xeon E5405	2,00	1333	2 x 6 MByte	4	80
Xeon X5272	3,40	1600	6 MByte	2	80
Xeon X5260	3,33	1333	6 MByte	2	80
Xeon E5205	1,86	1066	6 MByte	2	60

AMD & Intel: Listenpreise Quad-Core-CPUs

In der Tabelle finden Sie die Preise der aktuellen Xeon-Prozessoren im Vergleich zu AMDs Quad-Core-Opterons. Bei AMDs Preisliste gab es am 08. Oktober 2007 die letzten Änderungen. Intels Preisliste wurde am 05. September 2007 aktualisiert.

OEM-Preise im Vergleich
Modell	Taktfrequenz /FSB [MHz]	Listenpreis [US-Dollar]
AMD K10-Quad-Core
Opteron 8350	2000 / 1000	1019
Opteron 8347	1900 / 1000	786
Opteron 8347 HE	1900 / 1000	873
Opteron 8346 HE	1800 / 1000	698


Opteron 2350	2000 / 1000	389
Opteron 2347	1900 / 1000	316
Opteron 2347 HE	1900 / 1000	377
Opteron 2346 HE	1800 / 1000	255
Opteron 2344 HE	1700 / 1000	209


Intel 45-nm-Xeons
Xeon X5482	3200 / 1600	1279
Xeon X5472	3000 / 1600	1022
Xeon E5472	3000 / 1600	958
Xeon E5462	2800 / 1600	797
Xeon X5460	3160 / 1333	1172
Xeon X5450	3000 / 1333	915
Xeon E5450	3000 / 1333	851
Xeon E5440	2830 / 1333	690
Xeon E5430	2667 / 1333	455
Xeon E5420	2500 / 1333	316
Xeon E5410	2333 / 1333	256
Xeon E5405	2000 / 1333	209
Xeon X5272	3400 / 1600	1172
Xeon X5260	3333 / 1333	851
Xeon E5205	1867 / 1066	177


Intel 65-nm-Xeons
Xeon X5365	3000 / 1333	1172
Xeon X5355	2667 / 1333	744
Xeon E5345	2333 / 1333	455
Xeon E5335	2000 / 1333	316
Xeon L5335	2000 / 1333	380
Xeon E5320	1860 / 1066	256
Xeon L5320	1860 / 1066	320
Xeon E5310	1600 / 1066	209
Xeon L5310	1600 / 1066	273

Energieverbrauch: Minimum & Maximum

Intel spezifiziert die 3,0-GHz-Quad-Core-Xeons X5365 mit einem TDP-Wert von 120 Watt. Die CPUs fertigt Intel im 65-nm-Verfahren. Die Harpertown-Modelle Xeon E5472 produziert Intel mit 45 nm Strukturbreite. Den TDP-Wert dieser CPU spezifiziert der Hersteller trotz identischer Taktfrequenz von 3,0 GHz mit 80 Watt.

Um die Auswirkungen beider 3,0-GHz-Generationen auf den Energieverbrauch eines Servers zu überprüfen, tauschen wir im Stoakley-Server nur die CPUs aus. Dadurch lässt sich der Vorteil der 45-nm-Prozessoren gut zeigen.

Im folgenden Diagramm vergleichen wir den Systemverbrauch unter Windows Server 2003 R2 x64 im „Leerlauf“ ohne aktivierten Energiesparmodus (Energie-Schemata „Always on“):

Regungslos: Läuft nur der Windows-Desktop ohne CPU-Belastung, so sparen die beiden 45-nm-Xeons insgesamt 17 Watt (zirka 8,5 Watt pro CPU) gegenüber den Xeon-X5365-Modellen ein.

Um möglichst nur den Einfluss der CPUs unter voller Last zur berücksichtigen, wählten wir mit CINEBENCH 10 eine Anwendung, die den Speicher kaum belastet und der Workload überwiegend im Cache gehalten wird. Den Speicher lassen wir möglichst unbelastet, weil die Stoakley-Plattform beim Xeon E5472 und X5365 den FB-DIMM-Speicher mit unterschiedlichen Taktfrequenzen ansteuert (800 vs. 667 MHz). CINEBENCH 10 fordert beim Rendering alle Kerne

Full Power: Unter Volllast benötigt die Stoakley-Plattform mit dem E5472-Quad-Core-Xeons satte 67 Watt weniger Energie als mit den 65-nm-Modellen X5365. Dabei liefern die 45-nm-Harpertowns zusätzlich eine acht Prozent höhere Performance. Die Performance pro Watt des Systems steigt somit nur durch den CPU-Wechsel um 27 Prozent beim Rendering.

Neue Chipsätze für FB-DIMMs und DDR2

Für den schnelleren FSB1600 benötigen die 45-nm-Xeon-Modelle den neuen Seaburg-Chipsatz der ebenfalls neuen Stoakley-Plattform. Optimiert für die Quad-Core-Prozessoren wie dem Harpertown mit 12 MByte L2-Cache ist ein vergrößerter Snoop-Filter des Seaburg-Chipsatzes.

Dieser Puffer im Chipsatz soll Traffic aus dem Bus filtern und somit die FSB-Auslastung reduzieren. Der Snoop-Filter speichert Tags und den Coherency-Status aller Cache-Lines, die mit dem Hauptspeicher kohärent sind. Damit optimiert der Snoop-Filter die Effizienz und Auslastung der FSBs. Daten werden im Snoop-Filter des Chipsatzes nicht gespeichert. Die Snoop-Filter-Größe wird auf die Cache-Größe der Quad-Core-CPUs optimiert.

Intels Stoakley-Plattform verwaltet bis zu 128 GByte FB-DIMM-Speicher an. Damit verdoppelt der Hersteller den adressierbaren Speicher gegenüber der Vorgänger-Plattform Bensley. Außerdem steuert Stoakley den DDR2-Speicher der vier FB-DIMM-Channels mit einer von 667 auf 800 MHz gesteigerten Taktfrequenz an. Damit erreicht Stoakley eine theoretische Speicher-Bandbreite von 25,6 statt 21 GByte/s (1000er Basis).

Neuigkeiten vermeldet die Stoakley-Plattform bei der Virtualisierung. Mit Unterstützung von Virtualization Technology for Directed I/O (VT-d ) bietet Stoakley Hardware-Unterstützung für die Zuweisung von I/O-Geräten an virtuelle Maschinen oder Partitionen. Die VT-d-Technologie soll die Performance und Zuverlässigkeit von Datenbewegungen in einer virtualisierten Umgebung verbessern. Ebenso unterstützt die Plattform PCI Express der zweiten Generation.

Für günstige 2-Sockel-Plattformen offeriert Intel zusätzlich den neuen 5100 Chipsatz mit Code-Namen „San Clemente“. Damit ermöglicht der Hersteller Systeme mit „normalen“ DDR2-Speichermodulen. Der Chipsatz unterstützt einen FSB1066/1333 und arbeitet im Gespann mit dem ICH9R.

Testvorbetrachtung

Für den Test der Xeon- und Opteron-Prozessoren standen uns verschiedenen Systeme zur Verfügung. Die 2-Sockel-Server unterscheiden sich vor allem in der Auslegung der Netzteile sowie der Storage-Anbindung.

Bei unserer ersten Performance-Analyse des Xeon Harpertown und der konkurrierenden Prozessoren haben wir deshalb bewusst nur Benchmarks gewählt, die vom Storage-Subsystem unabhängig sind und die Workloads sich im Arbeitsspeicher halten.

FSB1600-Prozessor: Intels 45-nm-Harpertown arbeitet mit einem FSB1600 und benötigt die für den Launch vorgesehene Stoakley-Plattform. Dessen neuer Seaburg-Chipsatz unterstützt FSB1600-CPUs sowie FB-DIMM-Speicher mit bis zu 800 MHz Taktfrequenz.

Um beim Arbeitsspeicher möglichst gleiche Vorraussetzungen zu erreichen, kommen jeweils 16 GByte DDR2-SDRAM zum Einsatz. Die Stoakley-Plattform bietet mit den 45-nm-FSB1600-Harpertowns eine Speichergeschwindigkeit von 800 MHz. Intels Xeon-5300-Serie mit FSB1333 arbeiten in der aktuellen Bensley-Plattform mit DDR2-667-FB-DIMMs.

Die Stoakley-Sample-Plattform unterstützt neben den 45-nm-FSB1600-Prozessoren auch die aktuellen 65-nm-Xeons. Um die Performance-Unterschiede des 3,0-GHz-Harpertown (Xeon E5472 45 nm) gegenüber den 3,0-GHz-Clovertown (Xeon X5365 65 nm) herauszustellen, haben wir den X5365 zusätzlich in der Stoakley-Plattform getestet. Der FB-DIMM-DDR2-800-Speicher wird beim Einsatz des FSB1333-Xeon allerdings mit 667 MHz angesteuert – 800 MHz sind den 45-nm-FSB1600-CPU vorbehalten.

Als Betriebssystem setzen wir Windows Server 2003 R2 x64 ein. Beim Linux-Betriebssystem CentOS 5.0 kommt ebenfalls die 64-Bit-Version zum Einsatz. Weitere Details zu den Testsystemen finden im Abschnitt „Testplattform Opteron- & Xeon-CPUs“ am Ende des Artikels.

SPECint_rate_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2003 R2 x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.0 und Fortran 10.0 in der 64-Bit-Version und MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Bei den Integer-Berechnungen von SPECint_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECint_rate_base2006 der Anzahl der Prozessorkerne des Systems.

SPECint_rate_base2006: Die Xeon E5472 erzielen einen 15 Prozent höheren Integer-Durchsatz als die ebenfalls mit 3,0 GHz Taktfrequenz arbeitenden Xeon X5365. Neben dem größerem L2-Cache profitieren die 45-nm-Xeons von ihrem FSB1600 in Verbindung mit dem schnelleren DDR2-800-Speicher. Dass der Xeon X5365 in der Stoakley-Plattform schneller ist als im Bensley-Server, liegt am Seaburg-Chipsatz. Dessen 64 MByte fassender Snoop-Filter ist für Quad-Core-Prozessoren optimiert.

SPECfp_rate_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2003 R2 x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.0 und Fortran 10.0 in der 64-Bit-Version und MS Visual Studio 2005 .NET für alle Floating-Point-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Bei den Floating-Point-Berechnungen von SPECfp_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Floating-Point-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2006 der Anzahl der Prozessorkerne des Systems. Bei acht Kernen wie in den getesteten 2-Sockel-Systemen sind 16 GByte Arbeitsspeicher für SPECfp_rate_base2006 notwendig.

SPECfp_rate_base2006: Bei den sehr speicherintensiven Durchsatztests mit Floating-Point-Programmen setzt sich der Xeon E5472 ebenfalls mit 15 Prozent mehr Performance vom Xeon X5365 in der Stoakley-Plattform ab. AMDs Quad-Core-Opterons 8350 überzeugen mit einer beeindruckenden Performance. Mit nur 2,0 GHz Taktfrequenz überholen die Barcelonas Intels Xeon X5365 in der aktuellen Bensley-Plattform. Bei dem sehr speicherlastigen Benchmark zeigt sich die Überlegenheit des Konzepts der integrierten Speicher-Controller in Verbindung mit den HyperTransport-Schnittstellen.

Intels 10.0-Compiler bieten mit dem Switch –QxO erstmals eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“. Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag –fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung.

SPECint_rate_base2000

Wir setzen die SPEC-Benchmarks unter Windows Server 2003 R2 x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 9.1 und Fortran 9.1 in der 32-Bit-Version und MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Bei den Integer-Berechnungen von SPECint_rate_base2000 ermittelt die Benchmark-Suite CPU2000 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECint_rate_base2000 der Anzahl der Prozessorkerne des Systems.

SPECint_rate_base2000: Der Harpertown profitiert hier hauptsächlich von seinem größerem L2-Cache sowie dem Architektur-Tuning wie dem FastRadix-16 Divider. Der Speicherbedarf ist bei dem Ganzzahlen-Benchmark nicht besonders hoch. Der schnellere FSB1600 und der DDR2-800-Speicher sind deswegen nicht hauptverantwortlich für das Geschwindigkeitsplus.

Offizielle Ergebnisse von CPU2000 werden seit dem 24.02.2007 vom SPEC-Konsortium nicht mehr publiziert. Seit August 2006 gibt es den Nachfolger CPU2006.

SPECfp_rate_base2000

Wir setzen die SPEC-Benchmarks unter Windows Server R2 2003 x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 9.1 und MS Visual Studio 2005 .NET sowie Intel Fortran 9.1 für alle Fließkommatests. Bei den AMD-Prozessoren testen wir die Floating-Point-Performance zusätzlich mit den PGI-6.2-Compilern. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Bei den Floating-Point-Berechnungen von SPECfp_rate_base2000 ermittelt die Benchmark-Suite CPU2000 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2000 der Anzahl der Prozessorkerne des Systems.

SPECfp_rate_base2000: Bei den speicherlastigeren Floating-Point-Benchmarks proftieren die Harpertown-Xeons deutlich mehr vom FSB1600 und dem DDR2-800-Speicher. Statt 10 Prozent mehr Performance wie beim SPECint_rate_base2000 erreichen die 45-nm-Xeons jetzt 24 Prozent mehr Durchsatz – gegenüber den Xeon X5365 in der Stoakley-Plattform.

Offizielle Ergebnisse von CPU2000 werden seit dem 24.02.2007 vom SPEC-Konsortium nicht mehr publiziert. Seit August 2006 gibt es den Nachfolger CPU2006.

Rendering: CINEBENCH 10 64 Bit

Mit dem CINEBENCH 10 stellt Maxon die aktuelle Version des bekannten Benchmark-Tools bereit. CINEBENCH 10 basiert auf Cinema 4D Release 10 und führt wieder Rendering-Tests durch. Maxon bietet CINEBENCH 10 als 32- und 64-Bit-Version zum Download an.

Beim Render-Teset wird eine photorealistische 3D-Szene mit Hilfe des Cinema-4D-Raytracers berechnet. Die Szene enthält unter anderem Lichtquellen, Schatteneffekte sowie Multi-Level-Reflektionen. Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte keine Rolle. Auch höhere Speicher- und FSB-Bandbreiten nutzen beim Rendering von CINEBENCH 10 wenig - der Test läuft überwiegend in den Cache-Stufen ab.

1 Thread: Beim Rendering wird jetzt nur ein Prozessorkern verwendet - Multi-Core nutzt hier nichts. Der 45-nm-Xeon E5472 arbeitet acht Prozent schneller als der Xeon X5365 (beide in der Stoakley-Plattform). Verantwortlich zeigt die Super Shuffle Funktion, die SSE-Instruktionen ohne Änderungen an der Software beschleunigt. AMDs K10-Core arbeitet bei einer 29 Prozent geringeren Taktfrequenz durch die verbesserte Fließkomma-Einheit nur 15 Prozent langsamer als der K8-Core des Opteron 2220.

Alle Threads: Jetzt nutzt CINEBENCH alle verfügbaren Prozessorkerne. Die 45-nm-Harpertowns führen weiter mit acht Prozent Vorsprung auf die 65-nm-Generation. Der prozentuale Rückstand der Opteron-8350-Modelle gegenüber Intels 65-nm-Quad-Core-Xeons entspricht wieder der entsprechend niedrigeren Taktfrequenz des AMD-CPUs. Die Rendering-Geschwindigkeit skaliert sehr gut mit Taktfrequenzerhöhungen.

Testkonfiguration und weitere Ergebnisse

Die Xeon-E5472-Prozessoren mit Penryn-Architektur testen wir in einem Stoakley-Evaluation-System von Intel. Intels 65-nm-Xeon-Prozessoren testen wir zusätzlich in einem aktuellen Bensley-Server mit dem Intel Server Board S5000PSL. Und AMDs Quad-Core-Opteron 8350 testen wir in einem Tyan S3993 mit Broadcom BCM5780 Chipsatz. Für den Test der Opteron-CPUs 2218 (Cache-Transferraten) und 2220 von AMD verwenden wir von Fujitsu Siemens den 2-Sockel-Server Primergy RX330 S1.

Weitere Details zu den Testplattformen.

Weitere Testergebnisse zur Beurteilung der Leistungsfähigkeit der Server-Prozessoren beim Verschlüsseln und Entschlüsseln von Daten unter Linux 64 Bit, ihrer Floating-Point-Performance mit Linepack 64 und dem Analysetool für den Finanzbereich SunGards Adaptiv Credit Risk sowie 3ds Max 9 x64 finden Sie bei unserer Online-Schwester TecChannel.

Fazit

Intel vergrößert mit seiner 45-nm-Generation Xeon „Harpertown“ wieder den Performance-Abstand zu AMDs K10-Opterons. Besonders tendenziell „schwächelnden“ Disziplinen wie sehr speicherintensiven Applikationen verschafft der Harpertown mit seinem größerem Cache und vor allem dem schnelleren FSB1600 wieder höhere Wertungen.

Denn in diesen Paradedisziplinen für die K10-Prozessoren mit ihren integrierten Speicher-Controllern und dem HyperTransport-Konzept setzte AMD die Xeon-5300-Modelle stark unter Druck. Beim sehr rechen- und speicherintensiven renommierten CPU2006-Benchmark SPECfp_rate_base2006 arbeiten die 2,0-GHz-Quad-Core-Opterons fünf Prozent schneller als Intels 3,0-GHz-Xeon-X5365-CPUs in der Bensley-Plattform.

Die 3,0-GHz-Harpertowns Xeon E5472 setzen sich dagegen bei SPECfp_rate_base2006 wieder mit 16 Prozent mehr Performance von den K10-Opterons ab. Hier hilft auch die für FSB1600-Xeons notwendige Stoakley-Plattform mit. Denn neben dem für Quad-Core-Xeons optimierten Seaburg-Chipsatz mit dem 64 MByte Snoop-Filter ermöglichen die schnelleren DDR2-800-FB-DIMMs mehr Speicherbandbreite.

Intels Harpertown-Xeons mit der 45-nm-Penryn-Architektur bieten aber auch bei Workloads, die überwiegend im Cache gehalten werden und wenig Speicherzugriffe erfordern, bei gleicher Taktfrequenz mehr Performance. Architekturfeinschliff wie das neue Super Shuffle und Fast Radix-16 sorgen auch in wenig speicherlastigen Applikationen wie unseren Rendering-Benchmarks für zirka sieben Prozent mehr Geschwindigkeit.

Zudem bieten die Harpertown-Prozessoren mit ihrer SSE4-Erweiterung bei optimierten Anwendungen noch Geschwindigkeitspotenzial. Positiv bei den 45-nm-Modellen ist auch der bei gleicher Taktfrequenz deutlich reduzierte Energiebedarf im Vergleich zu den 65-nm-Xeons.

Für Ende 2007 hat AMD den Opteron 2360 mit 2,5 GHz Taktfrequenz angekündigt. Ob dieser Prozessor wieder für mehr Ausgeglichenheit zwischen AMD und Intel bei 2-Sockel-Systemen sorgt, wird ein Test im TecChannel-Testlabor dann zeigen.

(tecchannel/bb)