18

News des 18. November 2009

Im Laufe des Mittwochs sind dann doch noch erste Listungen der Radeon HD 5970 eingetrudelt, welche der Karte allerdings einen ziemlich hohen Straßenpreis von nicht unter 550 Euro zuweisen. Dies widerspricht deutlich dem Listenpreis von 599 Dollar (ohne MwSt), welcher zum aktuell günstigen Dollar/Euro-Kurs auf einen europäischen Straßenpreis "von ca. 480 Euro (inkl. MwSt) hinauslaufen sollte. Jetzt kann man natürlich das Argument der üblicherweise etwas überzogenen Launchpreise bringen – aber das zieht eigentlich nur, wenn die Karten auch verfügbar wären (weil nur dann kann man mit diesen Preisen auch ein Geschäft machen). Da es derzeit aber keinerlei Kartenverfügbarkeit gibt, stellt sich die Frage, wieso jemand eine Radeon HD 5970 zu nicht unter 550 Euro vorbestellen soll, wenn man – mit gleicher Performance und vor allem gleichen Liefertermin – auch ein CrossFire-Gespann aus zwei Radeon HD 5850 Karten haben kann, welches den Grafikkartenkäufer um bis zu 100 Euro günstiger kommt.

DualChip-Lösungen Preislage CrossFire-Lösungen
  640-720
Euro
Radeon HD 5870 CrossFire 2x1024MB
2x ATI RV870, DirectX 11, 3200 Shader-Einheiten, 160 TMUs, 2x 32 ROPs, 2x 256 Bit DDR Interface, Takraten 850/2400 MHz, 2x 1024 MB GDDR5, 2x DualSlot, Idle 41W, Spiele 291W
Produkt- und Preissuche: Ciao, PreisRoboter, Geizhals
Radeon HD 5970 2x1024MB
2x ATI RV870, DirectX 11, 3200 Shader-Einheiten, 160 TMUs, 2x 32 ROPs, 2x 256 Bit DDR Interface, Takraten 725/2000 MHz, 2x 1024 MB GDDR5, DualSlot, Idle 43W, Spiele 216W
Produkt- und Preissuche: Ciao, PreisRoboter, Geizhals
550-620
Euro
 
  440-520
Euro
Radeon HD 5850 CrossFire 2x1024MB
2x ATI RV870, DirectX 11, 2880 Shader-Einheiten, 144 TMUs, 2x 32 ROPs, 2x 256 Bit DDR Interface, Takraten 725/2000 MHz, 2x 1024 MB GDDR5, 2x DualSlot, Idle ca. 40W, Spiele ca. 210W
Produkt- und Preissuche: Ciao, PreisRoboter, Geizhals

Auf dieser preislichen Grundlage kann es dann natürlich keine Empfehlung für die Radeon HD 5970 mehr geben, die Radeon HD 5850 CrossFire wäre hier vorzuziehen. Selbst diesen Anwendern, welche über kein CrossFire-taugliches Mainboard verfügen (und die damit technisch auf die Radeon HD 5970 angewiesen sind), kann keine Empfehlung zum sofortigen Kauf gegeben werden – denn wenn die Karten dann breit verfügbar werden, dürfte sich hoffentlich auch der Preis der Radeon HD 5970 dem von zwei Radeon HD 5850 Karten anpassen. Wenn nicht, dann lohnt es fast, auf ein CrossFire-taugliches Mainboard umzusatteln, denn um die 100 Euro mehr für die Radeon HD 5970 sind einfach übertrieben für eine nicht vorhandene Mehrperformance.

Der Heise Newsticker berichtet von einer Live-Demonstration von Intels Larrabee-Chip auf der SC09, bei welchem dieser auch einen expliziten Rechenleistungs-Benchmark (SGEMM) durchlief. Damit wurde die tatsächlich erzielbare SinglePrecision-Rechenleistung gemessen, wobei man auf eine Dauerleistung von 417 GFlops und in der Spitze auf 712 GFlops kam – mit Übertaktung ging es dann auf 1006 GFlops hinauf. Diese Werte sind nicht vergleichbar mit den zu den Grafikchips von ATI und nVidia bekannten Zahlen, da letztere nur die theoretische Maximal-Rechenleistung wiedergeben, welche in der Praxis nie erreicht wird. Allerdings gibt es durchaus Vergleichszahlen: So soll eine Tesla C1060 (vergleichbar mit einer GeForce GTX 280) mit einer theoretischen SinglePrecision-Rechenleistung von 936 GFlops in diesem Benchmark runde 320 GFlops Dauerleistung erreichen.

Grafikchips erzielen in diesem Test also ganz klar keine gute Effizienz zwischen theoretischer und praktisch verfügbarer Rechenleistung, beim vorgenannten Tesla-Beschleuniger sind es gerade einmal 34 Prozent. Bei ATIs CPU-Ansatz soll sogar eine noch deutlich höhere Ineffizienz herauskommen – was nebenbei auch erklärt, wieso ATIs Grafikkarten mit ihrer überragenden theoretischen Rechenleistung nicht schneller als die nVidia-Grafikkarten (der gleichen Generation) mit ihrer klar niedrigeren theoretischen Rechenleistung sind. CPUs hingegen können in demselben SGEMM-Test eine Effizienz von bis zu 90 Prozent erreichen – was im übrigen auch ein wenig auf Larrabee abfärben dürfte, da das Larrabee-Design doch ziemlich nahe an einer CPU liegt.

Vermutlich hatte das benutzte Larrabee-Testsample eine theoretische Rechenleistung knapp oberhalb des erzielten Spitzenwertes von 712 GFlops, was bei 417 GFlops Dauerleistung auf eine Larrabee-Effizienz in der Nähe von 50 Prozent zugeht. Eingedenk dessen, daß das benutzte Testsample sicherlich noch nicht mit der Auslieferungs-Taktfrequenz lief (dies wollte Intel wohl durch seinen Übertaktungsversuch andeuten), läuft dies ungefähr darauf hinaus, daß kauffähige Larrabee-Lösungen des ersten Halbjahres 2010 wohl auf eine praktische SinglePrecision-Rechenleistung von ca. 500 GFlops in diesem SGEMM-Benchmark kommen werden – vielleicht 600 GFlops, wenn man über Treiberoptimierungen noch einiges herausholen kann.

Und dies ist dann gar nicht einmal so übel, denn selbst ATIs Radeon HD 5870 liegt bei einer angenommenen Effizienz von 25 Prozent nur bei 680 GFlops – wobei wir diesen ATI-Wert keinesfalls beschwören können, da dieser wie gesagt auf einer reinen Annahme beruht. Bei nVidia kann man wenigstens von einer festen Ausgangsgröße (in Form des Tesla-Wertes) spekulieren: Eine Fermi-Karte sollte bei einer theoretischen Rechenleistung von 1200 bis 1500 GFlops und einer erhöhten Effizienz (wegen dem Wechsel von 1x MULL + 1x MADD auf 2x FMA) von sagen wir 40 Prozent auf eine praktische SinglePrecision-Rechenleistung in diesem Benchmark von ca. 500 bis 650 GFlops kommen. Ergo könnte es passieren, daß diese drei Grafikchip-Designs in der praktisch nutzbaren Rechenleistung viel stärker zusammenliegen als es anhand der Zahlen zur theoretischen Rechenleistung zunächst aussieht.

Technik theoretische Rechenleistung dauerhafte SGEMM-Rechenleistung
nVidia Tesla C1060 240 Shader-Einheiten, 1x MADD + 1x MUL pro Takt und SE (2+1 GFlop), 1300 MHz Shader-Takt 936 GFlops 320 GFlops (bestätigt)
Intel Larrabee SC09-Testsample ? geschätzt: 800 GFlops 417 GFlops (bestätigt)
Intel Larrabee Auslieferungskarte ? Annahme: 1000 GFlops Annahme: 500-600 GFlops
nVidia GF100 (Fermi) 512 Shader-Einheiten, 2x FMA pro Takt und SE (2 GFlop), 1200-1500 MHz Shader-Takt ca. 1200-1600 GFlops Annahme: 500-650 GFlops
ATI Radeon HD 5870 1600 Shader-Einheiten, 1x MADD pro Takt und SE (2 GFlop), 850 MHz Shader-Takt 2720 GFlops wilde Annahme: ca. 700 GFlops
Man beachte bitte zu diesen Zahlen die News des nächsten Tages mit vollkommen neuen Werten.

Einen Nachteil hat das ganze aber trotzdem noch zuungunsten von Intels Larrabee: Da dieser Grafikchip sehr umfangreich auf Hardware-Einheiten für Spezialfunktionen verzichtet und möglichst alles in den Shader-Einheiten berechnen will, benötigt Larrabee eigentlich eine deutlich höhere Rechenleistung, um mit den Designs von ATI und nVidia mithalten zu können. Und dies scheint trotz der höheren Effizienz bei der Auslastung der Recheneinheiten nicht der Fall zu sein. Dies mag sicherlich primär dadurch bedingt sein, daß Larrabee schon Anfang 2009 antreten und sich also eigentlich mit Radeon HD 4890 und GeForce GTX 280 messen sollte. Gegenüber diesen Designs hätte es wohl ganz gut für Larrabee ausgesehen, so aber ist eher zu befürchten, daß das erste Larrabee-Design gegen ATI RV870 und nVidia GF100 nur auf einem klaren dritten Platz landet.