6

Daten zur integrierten Grafik von AMDs Trinity und Kaveri

In einer AMD-Präsentation zu AMDs "Financial Analyst Day 2012" gibt es auch ein interessantes Diagramm zu erspähen, welches einen Ausblick auf die (geplante) Rechenleistung der nächsten integrierten Grafiklösungen von AMD für den Mainstream-Bereich bietet. Zudem gibt es mittels des Appendix endlich einmal eine Klarstellung, wie AMD diesbezüglich rechnet – was es im Umkehrschluß auch ermöglicht, rein nur die Rechenleistung der integrierten Grafikchips herauszurechnen.

So bezieht AMD die jeweilige CPU mit der einfache Formel "CPU-Kerne x Takt x 8 Flops" in die Rechnung mit ein, im Fall von Llano wären also aus der dargestellten ingesamten Rechenleistung (maximal) 96 GFlops abzuziehen, um rein auf die Rechenleistung der integrierten Grafik zu kommen. Da AMD für Llano insgesamt 580 GFlops eingezeichnet hat und die integrierte Grafik im besten Fall (Radeon HD 6550D) 480 GFlops leistet, passt das sogar ungefähr.

Noch viel schöner ist allerdings, daß im Appendix dann sogar klare Zahlenangaben stehen, wie sich AMD die nachfolgenden APUs vorstellt: Trinity wird 819 GFlops erreichen, was bei vier CPU-Rechenkernen auf (angenommen) 3.5 GHz CPU-Takt ergo 707 GFlops nur für die integrierte Llano-Grafik ergeben. Eine solche Rechenleistung wäre erreichbar mittels 512 VLIW4 Recheneinheiten (8 Shader-Cluster á jeweils 64 Recheneinheiten) auf ca. 690 MHz Takt – eine durchaus realisierbar erscheinende Annahme. Mit diesen Hardware-Daten würde die Trinity-Grafikeinheit ca. 47 Prozent mehr Rechenleistung als die Llano-Grafikeinheit hinlegen, was dann schon erst einmal sehr anständig ist. Da das Modell der VLIW4 Shader-Cluster zudem für ein klares mehr an Textureneinheiten steht, würde die Texturierleistung sogar um 84 Prozent wachsen.

Allerdings dürfte die Speicherbandbreite nicht in gleichem Maße mit nach oben gehen, da der Trinity-Prozessor weiterhin nur ein 128 Bit DDR3-Speicherinterface trägt, weitere Zugewinne an Speicherbandbreite also nur über einen höheren Speichertakt erzielt werden können. Da das schnell ins Geld gehen kann (und damit für günstige OEM-CPUs eher ungünstig ist), wird der reale Leistungsgewinn der integrierten Grafik zwischen Llano und Trinity klar niedriger ausfallen als jene 47 Prozent mehr Rechenleistung und 84 Prozent mehr Texturierpower vielleicht vermuten lassen. Wir gehen derzeit von einem Grafik-Performancegewinn bei Trinity gegenüber Llano von im Schnitt ca. 35 Prozent aus.

Llano Trinity Kaveri
Fertigung 32nm GlobalFoundries 32nm GlobalFoundries 28nm GlobalFoundries oder TSMC
CPU-Unterbau 4 Husky-Rechenkerne der K10.5-Architektur 4 Piledriver-Rechenkerne der Bulldozer-Architektur 4 Steamroller-Rechenkerne der Bulldozer-Architektur
Grafikeinheit 400 VLIW5 Recheneinheiten, maximal 600 MHz Takt wahrscheinlich 512 VLIW4 Recheneinheiten auf ca. 690 MHz Takt wahrscheinlich 512 (1D) Recheneinheiten auf ca. 900 MHz Takt
Speicherinterface 128 Bit DDR3, maximal DDR3/1866 128 Bit DDR3, maximal DDR3/2133 128 Bit DDR3, maximaler Speichertakt noch unbekannt
Rechenl. (insges.) 580 GFlops 819 GFlops 1050 GFlops
Rechenl. (GPU) 480 GFlops ca. 707 GFlops ca. 922 GFlops
Performance - ca. +35% gegenüber Llano ca. +15% gegenüber Trinity
Release Sommer 2011 Frühsommer/Sommer 2012 irgendwann 2013, vermutlich erst im zweiten Halbjahr

Zum Trinity-Nachfolger Kaveri machte AMD sogar unvorsichtigerweise eine exakte Angabe zu Anzahl der Recheneinheiten: Es sollen 8 Shader-Cluster auf Basis der neuen GCN-Architektur werden, ergo sind dies 512 (1D) Recheneinheiten für Kaveri. Dies ist von der Anzahl her nicht mehr als bei Trinity, aber natürlich dürften die GCN-Recheneinheiten etwas effektiver sein – und zudem scheint AMD bei Kaveri mit deutlich mehr Grafikchip-Takt zu arbeiten: Da man für die gesamte Kaveri-APU 1050 GFlops Rechenleistung erreichen will und davon auf (angenommen) 4.0 GHz Takt runde 128 GFlops für die CPU selber weggehen, müssen der GPU-Takt von Kaveri bei satten 900 MHz liegen, um diese Rechenleistung zu erreichen.

Damit kommt die integrierte Kaveri-Grafiklösung auf 30 Prozent mehr Rechen- und Texturierleistung gegenüber der integrierten Trinity-Grafik, hinzu kommen die Effizienzverbesserungen der GCN-Architektur. Der maßgebliche Bremsklotz dürfte aber wiederum die Speicherbandbreite sein, da auch Kaveri weiterhin nur mit einem 128 Bit DDR3-Speicherinterface geplant ist. Da AMD zwischen Llano, Trinity und Kaveri ergo nur mit höheren Speichertaktraten zugunsten einer höheren Speicherbandbreite arbeiten kann, steht zu befürchten, daß nach Trinity dieses Mittel dann letztlich erschöpft ist – höhere Speichertaktraten sind zwar sicherlich immer verfügbar, würden dann aber deutlich zu viel kosten und gehen auch nicht mehr herunter im Preis. Damit dürfte der Grafik-Performancegewinn zwischen Trinity und Kaveri eher unterdurchschnittlich ausfallen und vielleicht nur bei 15 Prozent liegen.

Nachtrag vom 13. Februar 2012

Die angenommenen 512 VLIW4 Shader-Einheiten bei Trinity haben sich nicht bestätigt – es sind 384 VLIW4 Shader-Einheiten mit allerdings höherer Taktrate – wie sich aus den ersten Informationen zu konkreten Trinity-Modellen ergibt.