19

News des 19. November 2009

Unsere gestrigen Ausführungen über die Larrabee-Rechenleistung läßt sich aufgrund neuer vorliegender Informationen nochmals besser beschreiben. Erstens einmal gibt es hierzu im Forum von Beyond3D einen Wert, auf was für eine Rechenleistung eine aktuelle ATI-Grafikkarte in diesem SGEMM-Test kommt: Die Radeon HD 4870 erreicht hierbei 540 GFlops – was ausgehend von deren theoretischer Rechenleistung von 1200 GFlops eine Effizienz von immerhin 45 Prozent für das ATI-Modell ergibt. Dies ist deutlich mehr als von uns angenommen und bringt ATI auch nachfolgend weiterhin die Führungsrolle bei der praktischen Rechenleistung ein. Jenes Forumsposting bei Beyond3D stellt sogar noch eine weitere Software-Optimierung vor, mittels welcher aus diesem Benchmark sogar noch 880 GFlops mit der Radeon HD 4870 herauszuholen sind.

Dies wollen wir aber mal nicht beachten – denn Benchmark-spezifische Optimierungen geben nicht wieder, was in der Praxis passiert, wo der Grafikchip nicht mit dem einen Benchmark, sondern mit vielfältiger Software konfrontiert wird. Aber schon ausgehend von dieser neuen Zahl verschiebt sich das Ergebnis einer Radeon HD 5870 massiv: Ausgerüstet mit 2720 GFlops theoretischer Rechenleistung dürften dann mit einer Effizienz von 45 Prozent immerhin ca. 1200 GFlops praktische Rechenleistung in diesem SGEMM-Benchmark herauskommen. Desweiteren hält das Forumsposting auf Beyond3D auch noch einen etwas bessere Wert zugunsten von nVidia parat: Eine GeForce GTX 280 (eigentlich nahezu gleich zur Tesla C1060) erreicht bei einer theoretischen Rechenleistung von 933 GFlops eine praktische Rechenleistung von 375 GFlops und damit eine Effizienz von 40 Prozent.

Zudem könnte man dieses Ergebnis auch noch unter dem Blickwinkel neu betrachten, daß die MUL-Recheneinheit in nVidias Shader-Einheiten vom G80- bis zum GT200-Chip relativ schwer auszulasten ist und daher für theoretische Rechenleistungen oftmals auch nur die reine MADD-Performance angegeben wird. Dann würden einer praktischen Rechenleistung der GeForce GTX 280 von wie gesagt 375 GFlops eine theoretische Rechenleistung von nur noch 622 GFlops gegenüberstehen – damit stiege die Effizienz schon auf 60 Prozent. Dies dürfte auch viel eher dem entsprechen, was vom GF100-Chip zu erwarten ist, dessen Rechenwerke dann nicht mehr 1x MADD und 1x MUL pro Takt und Shader-Einheit ausführen, sondern 2x FMA. Wenn man die bekannten Daten zum GF100 ansetzt, könnte dieser bei einer Effizienz von 60 Prozent um die 700 bis 1000 GFlops praktischer Rechenleistung in diesem SGEMM-Benchmark herausholen.

Die eigentliche Überraschung hält aber eine Meldung seitens The Register über diese Larrabee-Benchmarkvorführung bereit – welche auch einiges von dem umstößt, was der Heise Newsticker gestern noch berichtete: Nach dem Register entsprachen die gemessenen 417 GFlops praktische Rechenleistung nur einem halbierten Larrabee-Chip, mit der Aktivierung der vollen Kern-Anzahl ging es auf 805 GFlops praktische Rechenleistung hinauf. Wenn dies so zutrifft, sind die gestern zur Larrabee-Rechenleistung getroffenen Annahmen grundsätzlich falsch und die praktische Larrabee-Rechenleistung ist viel höher. So sprach Intel davon, daß die praktische Rechenleistung nach Übertaktung der Zielfrequenz von Larrabee entspricht, ergo soll Larrabee also bei runden 1000 GFlops praktischer Rechenleistung ankommen.

Technik theoretische Rechenleistung SGEMM-Rechenleistung
ATI Radeon HD 4870 800 Shader-Einheiten, 1x MADD pro Takt und SE (2 GFlop), 750 MHz Shader-Takt 1200 GFlops 540 GFlops (bestätigt)
ATI Radeon HD 5870 1600 Shader-Einheiten, 1x MADD pro Takt und SE (2 GFlop), 850 MHz Shader-Takt 2720 GFlops Annahme: ca. 1200 GFlops
Intel Larrabee SC09-Testsample 80 Kerne ? 805 GFlops (bestätigt)
Intel Larrabee Auslieferungskarte 80 Kerne, bis zu 25% höhere Taktfrequenz als SC09-Testsample ? angepeilt: ca. 1000 GFlops
nVidia GeForce GTX 280 240 Shader-Einheiten, 1x MADD + 1x MUL pro Takt und SE (2+1 GFlop), 1296 MHz Shader-Takt 622/933 GFlops 375 GFlops (bestätigt)
nVidia GF100 (Fermi) 512 Shader-Einheiten, 2x FMA pro Takt und SE (2 GFlop), 1200-1500 MHz Shader-Takt ca. 1200-1600 GFlops Annahme: 700-1000 GFlops

Primär dürfte dieser Umstand daher rühren, daß Intel ein Larrabee-Design mit 80 Kernen vorführte. Dies ist deutlich mehr, als was Intel früher kommuniziert hatte und was auch bislang angenommen wurde – anscheinend hat sich Intel aufgrund der langen Verzögerungszeit von Larrabee inzwischen bewegt und baut gleich einen größeren Chip anstatt das Ursprungsprojekt mit 32 Kernen weiterzuverfolgen. Wie stark die theoretische Rechenkraft dieses Chips sein wird, bleibt etwas unklar – zwar war das 32-Kern-Design mit rund 1000 Gigaflops theoretische Rechenleistung spezifiziert, aber nun mit gleich 80 Kernen und anscheinend weiterhin unter der 45nm-Fertigung wird Intel vermutlich mit der Taktrate deutlich nach unten gehen müssen, so daß sich diese Frage derzeit kaum klären läßt.

Allerdings ist ja eigentlich die praktische Rechenleistung die bessere Bezugsgröße und bei dieser sieht es so was, als würden ATI, Intel und nVidia auch nach dieser neuen Rechnung weiterhin grob zusammenliegen – wohl mit einem gewissen Vorteil für ATI, was aber aufgrund der Unsicherheit der derzeitigen Datenlage keinesfalls in Stein gemeißelt ist. Damit bleibt allerdings auch der gestern zum Schluß geäußerte Gedanke bestehen, daß das Intel-Design weiterhin keine klar höhere praktische Rechenleistung erreicht, was aber aufgrund des breitflächigen Verzichts auf diverse Fixed-Function-Einheiten dringend notwendig wäre, um mit Larrabee die Designs von ATI und nVidia schlagen zu können.