Dual-Xeon im Duett: Was bringt der L3-Cache?

06.11.2003
Keine Frage: Der margenträchtigste Prozessor aus dem Intel-Portfolio ist der Xeon. Er trägt entscheidend zum überaus guten Gesamtergebnis des weltgrößten Chipherstellers bei. Im Gegensatz zum 64-Bit-Boliden Itanium 2 wird er in verhältnismäßig hohen Stückzahlen verkauft und in Servern sowie Workstations eingesetzt. Technisch basiert der Xeon jedoch auf dem Pentium 4, daran gibt es nichts zu rütteln.

Die ersten Opteron-Maschinen von AMD haben der erfolgsverwöhnten Konkurrenz mächtig Angst eingejagt. Der Schrecken saß so tief, dass Intel kurzerhand zur Tat schreiten musste. Im vergangenen Test untersuchten wir zwei Dual-Systeme für das Workstation-/Serverumfeld: Intel Dual-Xeon 3.06 GHz und AMD Dual-Opteron 244. Letztendlich konnte der Opteron mit vergleichsweise niedriger Taktrate von 1.8 GHz bei verschiedenen Server-Applikationen den Xeon mit 3,06 GHz in die Schranken weisen. Hinzu kam der Vorteil des größeren L2-Cache: 1 MB vs. 512 KB beim Xeon. Der aktuelle Xeon mit dem Codenamen "Prestonia" gleicht vom Aufbau her der Northwood-Core des P4 und verfügt über zusätzliche Register für die Multiprozessor-Fähigkeit. Einschränkungen gibt es allerdings beim FSB-Takt: Während der P4 wahlweise mit FSB800 (realer FSB-Takt von 200 MHz) arbeitet, gibt es den Xeon mit maximal FSB533 (realer FSB-Takt von 133 MHz). Somit ist die Bandbreite zwischen Prozessor und Chipsatz beim Xeon gegenüber dem P4 (4,2 GB/s vs. 6,4 GB/s) deutlich eingeschränkt. Welche Bedeutung der Bandbreite des FSB zukommt, wird spätestens dann klar, wenn zwei oder vier Prozessoren am Chipsatz angeflanscht sind und sich die Bandbreite teilen müssen.

Um nicht ins Hintertreffen zu geraten, hat Intel blitzschnell reagiert und spendiert dem aktuellen Xeon einen zusätzlichen L3-Cache. Somit stehen drei Cache-Stufen zur Verfügung, die allesamt mit vollem Prozessortakt arbeiten. Damit stellt sich die Frage: Was bringt der zusätzliche L3-Cache von 1 MB beim Xeon 3,06 gegenüber der gleichgetakteten Variante ohne Extra-Zwischenspeicher? Im THG-Labor haben wir zwei Systeme mit identischer Hardware für den Workstation-Einsatz untersucht. Hat der Business-Kunde beim Einsatz von CAD/CAE/CAM-Software einen klaren Vorteil?

Aktuell gibt es den Xeon-Prozessor in fünf verschiedenen Varianten: Einmal als Workstation-Version (Codename: Prestonia) mit 512 KB großem L2-Cache - der Aufbau ist mit dem des P4 (Northwood-Kern) identisch. Einziger Unterschied: Die Möglichkeit des Dual-CPU-Betriebs. Weiterhin gibt es seit einigen Wochen eine erweiterte Variante mit zusätzlichem L3-Cache von 1 MB. Beide genannten Typen sind maximal mit 3,06 GHz erhältlich und arbeiten mit einem FSB-Takt von 133 MHz (FSB533 im Intel-Jargon). Zu den Highend-Produkten mit höchster Marge zählen die drei Server-Xeons mit wahlweise 512 KB, 1 MB oder 2 MB L3-Cache. Allerdings bleibt der FSB-Takt auf 100 MHz beschränkt. In diesem Test konzentrieren wir uns auf den Workstation-Bereich und haben zwei Systeme mit Dual-Xeon gegenübergestellt. Während das eine System mit CPUs ohne L3-Cache arbeitet, verfügt der zweite Rechner über Prozessoren mit 1 MB großen L3-Cache.

Die Preise beim Xeon beginnen - bei ausnahmloser Betrachtung der Topmodelle - bei 455 Dollar, dafür erhält der Kunde den Einstiegs-Xeon mit 3,06 GHz ohne L3-Cache. Letztendlich handelt es sich um den P4 mit gleicher Taktrate für Dual-Betrieb.

Die Version mit L3-Cache kostet 690 Dollar und ist vergleichsweise günstig, denn das Xeon-MP-Spitzenmodell mit 2 MB L3-Cache und 2,8 GHz kostet 3692 Dollar. Damit ist der Abstand zum Highend-Itanium 2 (1.5 GHz und 6 MB L3-Cache), der mit 4226 Dollar das Firmenkonto belastet, gar nicht mehr so groß.

Mehr Cash für Cache!

Der ambitionierte Anwender stellt sich allerdings die Frage, warum Intel keine weitere Takterhöhung wie beim P4 mit 3.2 GHz vorgenommen hat. Stattdessen wurde der L3-Cache zusätzlich angeflanscht. Intel will mit dieser Methode die Leistung des Prozessors bei bestimmten Anwendungen anheben und das CPU-Design nahezu unangetastet zu lassen. Ob die Erwartungen erfüllt werden, dass zeigen letztendlich unsere Benchmarks - eine ausführliche Betrachtung folgt im Rahmen dieses Artikels. In jedem Fall vergrößert sich die Die-Fläche gegenüber der Version ohne dritten Zwischenspeicher beträchtlich. Theoretisch hätte Intel auch den L2-Cache von 512 KB auf 1024 KB erhöhen können und wäre damit dem Prescott- bzw. Nocoma-Design näher gekommen. Prinzipiell unterscheiden sich die drei Cache-Stufen des Xeon nicht nur in ihrer Größe sondern in den Latenzzeiten beim Zugriff. Dennoch arbeiten sie mit vollem Prozessortakt - in unserem Fall mit 3,06 GHz (siehe Grafik).

Im Bild ist ersichtlich, wie sich die Latenzzeiten der einzelnen Caches theoretisch voneinander unterscheiden. Eine Nachfrage bei Intel brachte keine detaillierten Angaben zu den Werten für den L2- und L3-Cache. Rein mathematisch betrachtet muss der L3-Cache langsamer arbeiten als der halb so große und schnellere L2-Cache. Andernfalls wäre die Vergrößerung des L2-Caches wirksamer - wenn auch aufwendiger - gewesen. Zudem besteht die Gefahr, dass ein größerer L2-Cache unter Beibehaltung der CPU-Architektur nicht den erwünschten Geschwindigkeitsvorteil bringt. An dieser Stelle sei der Übergang vom Willamette-P4 zum Northwood-P4 genannt. Allein die Verdoppelung des L2-Caches von 256 KB auf 512 KB brachte nicht den großen Performanceschub. Nur im Zusammenspiel mit höherer Bandbreite (FSB-Takt) konnte die Leistung gesteigert werden. Beim Xeon verfolgt der Hersteller ein anderes Konzept: Der 1 MB große L3-Cache soll die vergleichsweise langsamen Zugriffe auf den Arbeitsspeicher abfedern.

Vier Chipsätze für Xeon-Plattform

Momentan gibt es vier verschiedene Chipsätze für die Sockel-604-Plattform. Der älteste Baustein ist der 7205 (Granite Bay) für einen FSB-Takt von 133 MHz (FSB533) mit einem Dual-DDR266-Interface. Den Chipsatz gibt es ebenfalls für die P4-Plattform mit Sockel 478. Der Granite Bay ist die Basis aller folgenden Chipsätze mit Dual-DDR-Interface, so dass neben dem Intel 875P (Canterwood) und 865 (Springdale) auch die Workstation- und Serverbausteine 7505 (Placer) und 7501 (Plumas 533) entwickelt wurden.

Performance: Xeon 3.06 /L3-Cache

Ein wesentliches Kaufargument bei der Anschaffung einer Workstation ist die Performance im Dual-Betrieb, da in jedem Fall nur optimierte Rendering-Programme für 3D-Grafik und Video zum Einsatz kommen.

Lightwave 7.5b, Cinema 4D XL

8.1 und 3D Studio Max 5.1 gehören zu den am meisten verwendeten Applikationen im Profi-Segment. Ergänzend dazu verwenden wir den SPECviewperf, der aus verschiedenen Highend-Programm-Paketen einen Mittelwert bestimmt.

Um eine ordentliche Grafikperformance zu erhalten, haben wir die Nvidia GeForce FX5900 Ultra, die mit 256 MB Texturspeicher bestückt ist, eingesetzt. Weiterhin kommen 512 MB Arbeitsspeicher von Infineon (ECC Registered) zum Einsatz.

Lightwave 7.5

Beim bekannten Lightwave-Benchmark, wo ein Bild aus einer Animation berechnet und gerendert wird, zeigt sich, dass der zusätzliche L3-Cache mit 1 MB eine marginale Mehrleistung von 1.4 Prozent bringt. Was der Dual-Prozessor-Betrieb bewirkt, zeigen die Ergebnisse des derzeit schnellsten Pentium 4 mit 3,2 GHz. Allerdings ist auch zu sehen, dass zwei CPUs nicht doppelt so schnell sind wie ein Prozessor. Prinzipiell sind P4 und Xeon in der Standardausführung nahezu identisch. Der Geschwindigkeitszuwachs des Dual-Xeon gegenüber dem P4 beträgt somit 52 Prozent. Zur Erinnerung: Bei Lightwave laufen 8 Threads gleichzeitig ab, so dass auch die vier virtuellen Prozessoren (Dual-Xeon) voll bedient werden

3D Studio Max 5.1

Enttäuschende Ergebnisse liefert das am häufigsten eingesetzte 3D-Rendering-Programm: Der Dual-Xeon 3,06 mit 1 MB L3-Cache bewirkt keinen Vorteil. Gegenüber dem "einfachen" Pentium 4 mit 3,2 GHz sind die beiden Dual-Xeons mit knapp 70 Prozent Zuwachs in Führung.

SPECviewperf 7.1

Hier ging der Schuss nach hinten los: Bei allen Disziplinen wirkt sich der L3-Cache negativ aus, fast könnte man sagen, er verhindert Mehrleistung. Vielmehr kommt es auf FSB-Bandbreite und Speicherperformance an.

Main Concept 1.3

Beim Encoding von DV-Video nach MPEG-2 schaffen die beiden Dual-Systeme gegenüber dem schnellsten P4 ein Leistungsplus von 18,8 Prozent - das ist wahrlich keine Glanzleistung. Die beiden Xeon-Systeme unterscheiden sich um 1,7 Prozent - wiederum macht sich der 1 MB große L3-Cache kaum bemerkbar. Bezogen auf das schnellste Dual-Xeon-System wird eine Datenmenge von 7,5 MB/s verarbeitet.

Pinnacle Studio 8.5

Etwas anders verhält es sich beim Pinnacle-Benchmark: Das Dual-Xeon-System ohne L3-Cache ist langsamer als der P4 mit 3,2 GHz. Dagegen kann der Dual-Xeon mit L3-Cache von einer verbesserten Speicherperformance profitieren und legt um 18,1 Prozent zu

Speicher-Transfer: PC Mark 2002

Durch den zusätzlichen L3-Cache erhöht der Dual-Xeon die relativ niedrige Speicherperformance (FSB-Takt usw.) aus. Allerdings liegt der P4 mit 3,2 GHz und FSB800 im Zusammenspiel mit dem Intel-875P-Chipsatz klar in Führung. Die Cache-Erweiterung bewirkt bei diesem Benchmark eine Erhöhung der Speicherperformance um 6,9 Prozent.

CPU-Benchmark: SPEC CPU 2000

Beim SPEC-Benchmark CINT (basierend auf einer Dell-Workstation PowerEdge 1750 mit 3,06 GHz Xeon) zeigt sich, dass die Version mit L3-Cache einen Zuwachs von 16,2 Prozent bewirkt. Beim CFP-Benchmark sind es 11,7 Prozent. Speziell beim CFP-Benchmark liegt jedoch der Dual-Opteron von AMD in Führung.

Fazit: Xeon 3.06 - zusätzlicher L3-Cache bringt wenig

Im Workstation-Markt hat Intel die Konkurrenz um Alpha, Sun & Co hinter sich gelassen. Der Xeon-Prozessor im Single- oder Dual-Betrieb dominiert eindeutig den Markt. Dennoch droht Gefahr von AMD, seit der Opteron 244/246 für Dual-Workstations auf dem Markt erhältlich ist. Intel hat beim derzeitigen Spitzenmodell Xeon mit 3,06 GHz kurzerhand einen 1 MB großen L3-Cache hinzugefügt - vergleichbar mit dem sündteuren Xeon MP für den Servereinsatz. Den gleichen Prozessor gibt es wahlweise auch ohne L3-Cache. Der Preisunterschied beträgt (690 und 455 Dollar) knapp 33 Prozent. Unter dem Strich zeigen unsere Benchmarktests, die den Workstation-Einsatz unter der Berücksichtigung entsprechender Applikationen exakt abbilden, dass der zusätzliche L3-Cache kaum einen Geschwindigkeitszuwachs bewirkt. Populäre 3D-Software zur Generierung von Film- oder Trickszenen im Profiumfeld wie beispielsweise 3D Studio Max, Cinema 4D und Lightwave zeigen keinerlei Performanceanstieg. Und damit wäre das wesentliche Kaufargument auch schon entkräftet. Lediglich beim Speicherdurchsatz und demzufolge beim Video-Encoding ist ein Zuwachs festzustellen. Den bekannten SPECviewperf aus dem OpenGL-Segment absolviert das Xeon-System mit L3-Caches sogar marginal langsamer als der Rechner mit konventionellen Xeon-CPUs. Immerhin: Beim Distributed-Computing-Test (Seti Text-Client) bewirkt die Cache-Erweiterung ein Leistungsplus von 31 Prozent.

Letztendlich bleibt die Feststellung, dass der Intel Xeon (Workstation-Version) im Vergleich zum Pentium 4 mit einer niedrigeren FSB-Bandbreite (4,2 GB/s gegenüber 6,4 GB/s) auskommen muss und maximal mit DDR333-Speicher zusammenarbeitet. Leistungseinbußen sind infolge des Asynchronbetriebs von FSB- zu Speicherbus zu verzeichnen. Die höchste Taktrate liegt bei 3,06 GHz - den P4 gibt es bereits mit 3,2 GHz. Hohe Rechenleistung, wie sie im technisch-wissenschaftlichen Bereich benötigt wird, bietet bei entsprechender Software-Optimierung der Dual-Betrieb. Schließlich stehen dank Hyperthreading-Technologie vier virtuelle Prozessoren zur Verfügung.

Wer vor der Wahl steht - ob Dual-Xeon 3,06 mit oder ohne L3-Cache - wir empfehlen die Variante ohne zusätzlichen Zwischenspeicher. Die Mehrkosten von sind nicht gerechtfertigt.

Schon der Pentium 4 hat gezeigt: Eine Erhöhung des FSB-Takts bringt prozentual einen höheren Leistungsgewinn als die Steigerung des Speichertakts. Der Nachfolger des Xeon auf Basis der Prestonia-Core steht bereits in den Startlöchern: Unter dem Codenamen Nocoma und an den Prescott-Kern angelehnt soll ein FSB-Takt von 166 MHz (FSB667) für mehr Leistung sorgen. Denn: AMD's Dual-Opteron sitzt im Nacken - wie die Benchmarks eindrucksvoll zeigen!

Mehr zu diesem Test finden Sie in Internet unter www.toms hardware.de.

Über Tom's Hardware Guide

Das Onlinemagazin www.tomshardware.com wurde 1996 von Dr. Thomas Pabst gegründet und anfangs ausschließlich in englischer Sprache publiziert. 1998 kam der deutsche Dienst www.tomshardware.de hinzu. Mittlerweile firmiert Tom's Hardware Guide unter dem Dach der TG Publishing AG und veröffentlicht seine Artikel in Englisch, Deutsch, Französisch, Russisch, Türkisch, Chinesisch, Polnisch und Ungarisch.

Heute erreicht Tom's Hardware Guide über 700.000 deutsche Leser und mehr als 4 Millionen Leser weltweit, die über 60 Millionen Seitenabrufe pro Monat tätigen.

Kernkompetenz der internationalen Redaktion sind die unabhängigen und kritischen Produkttests anhand eigener oder anerkannter Industrie-Benchmarks. Neben regelmäßigen Produkt-vergleichen finden sich bei Tom's Hardware Guide auch Grundlagenberichte über Digitales Video, Monitortechnologien und 3D-Grafik. Tom’s Hardware Guide wendet sich an alle Hardware-Interessierten, egal ob Computerfreak oder Einsteiger. Die Ratgeber werden stets aktualisiert und sind ein ideales Nachschlagewerk vor dem PC- oder Komponentenkauf.

Zur Startseite