18

News des 18. Mai 2022

Nachdem Twitterer 'Kopite7kimi' zuletzt zwischen verschiedenen Auslegungsformen zu den "Ada" Shader-Clustern laviert hatte, soll es nunmehr eine klare sowie bestätigte Antwort zumindest zur Anzahl der FP32-Einheiten geben: Es sind maximal 18'432. Jene Zahl ist für den gesamten AD102-Grafikchip zu verstehen, nicht auf eine einzelne Grafikkarte bezogen. In anderen Auslegungsformen hatte der Twitterer auch mit einer Erhöhungen der Anzahl der FP32-Einheiten pro Shader-Cluster (128 bei Ada, wie bei Ampere) gespielt, so mit 192 oder 256 FP32-Einheiten pro Shader-Cluster – was dann teilweise extreme 27'648 bzw. 36'864 FP32-Einheiten für den gesamten Chip ergeben hätte. Wie gesagt sollen jene 128 FP32-Einheiten pro Shader-Cluster und damit 18'432 FP32-Einheiten für AD102 nunmehr bestätigt sein. Offen bleibt noch eine Bestätigung der zusätzlichen 64 INT32-Einheiten pro Shader-Cluster – wobei doch einiges in genau diese Richtung deutet.

Still up to 18432.
Confirmed.

Quelle:  Kopite7kimi @ Twitter am 18. Mai 2022

Stichwort "GeForce RTX 40 Serie": Aufgrund der hohen Performance-Prognosen zur GeForce RTX 4090 von teilweise mehr als der doppelten Performance zur GeForce RTX 3090 wird hier und da bezweifelt, ob nVidia tatsächlich durchgehend mit einem derartigen Performance-Boost antreten könnte. Allerdings ist dieses "durchgehend" gar nicht der Fall, denn mit der aktuell bekannten Chip/Karten-Ansetzung innerhalb der GeForce RTX 40 Serie kommen GeForce RTX 4070 & 4080 mit dem automatisch deutlich kleineren Performance-Sprung daher. Die Grundlage hierfür liegt in den jeweils verwendeten Grafikchips bzw. deren Hardware-Differenz zum Vorgänger: Bei AD104 & AD103 ist jener Hardware-Sprung verhältnismäßig klein, nur beim AD102-Chip wirklich satt groß.

3070 → 4070 3080 → 4080 3090 → 4090
Hardware Ampere GA104, 48 SM @ 256 Bit GDDR6, ~1.9 GHz GA102, 68 SM @ 320 Bit GDDR6X, ~1.85 GHz GA102, 82 SM @ 384 Bit GDDR6X, ~1.8 GHz
Hardware Ada AD104, ~58 SM @ 192 Bit GDDR6, ~2.4-2.8 GHz AD103, ~82 SM @ 256 Bit GDDR6X, ~2.4-2.8 GHz AD102, 126 SM @ 384 Bit GDDR6X, ~2.4-2.8 GHz
Differenzen +21% mehr SM, +36% mehr Rechenkraft pro SM, +26-47% mehr Takt +21% mehr SM, +36% mehr Rechenkraft pro SM, +30-51% mehr Takt +54% mehr SM, +36% mehr Rechenkraft pro SM, +33-56% mehr Takt
Rohleistung (inkl. SM-interne Steigerung) nominell 2,1-2,5fache nominell 2,1-2,4fache nominell 2,8-3,2fache
Performance-Prognose ca. 1,6-2,0fache ca. 1,6-2,0fache ca. 1,9-2,5fache
Anmerkung: Angaben zu noch nicht vorgestellter Hardware basieren auf Gerüchten & Annahmen

Davon nutzt nVidia nunmehr bei der GeForce RTX 4090 wohl nicht alles aus, dennoch ist allein die tatsächlich benutzte Hardware-Differenz schon bemerkenswert: GeForce RTX 4070 & 4080 treten wahrscheinlich nur mit +21% Shader-Clustern an, nur die GeForce RTX 4090 kommt mit gleich +54% in dieser Frage auf einen wirklich bemerkbaren Unterschied zur vorhergehenden Ampere-Generation. Und dieser Unterschied fließt dann in alle Rechnungen ein, egal wie man jene gestaltet und mit welchen Taktraten man kalkuliert. Vorstehende Modell-Rechnung ist vielleicht etwas zu optimistisch, zeigt aber trotzdem an, dass bei angenommen einer doppelten Performance der GeForce RTX 4090 die beiden anderen Ada-Karten dann deutlich darunter liegen werden – GeForce RTX 4070 & 4080 wären in dieser Kalkulation jeweils bei ca. +60% zu verorten.

Ob eher das untere oder obere Ende dieser Beispiel-Rechnung herauskommt, liegt primär an zwei Dingen: Erstens den real gebotenen Ada-Takraten (welche vorstehend mit Real-Taktraten von Ampere verglichen wurden). Und zweitens den bei einem so großen Rohleistungssprung unwillkürlich an allen Ecken und Enden auftretenden Skalierungs-Bremsen, sei es bei CPU-Leistung, Raster-Power, Speicherinterface oder wegen SM-interner Limitationen. Hier könnten sich bei GeForce RTX 4070 & 4080 sogar noch stärkere Verluste als vorstehend kalkuliert ergeben, da die beiden kleineren Ada-Lösungen im Gegensatz zur GeForce RTX 4090 keinen Fortschritt bei der Anzahl der Raster-Engines bieten und zugleich mit kleineren Speicherinterface gegenüber der Ampere-Generation daherkommen (was beides auf die GeForce RTX 4090 nicht zutrifft). In der Summe wird nVidia sicherlich einen gutklassigen Performance-Gewinn bei GeForce RTX 4070 & 4080 erzielen, den großen Knall gibt es aber nur mit der GeForce RTX 4090 – deren Performancegewinn wird auffallend stärker ausfallen.

Selbige Rechnung bezogen auf AMDs Navi 3X Chips ergibt dagegen ein bei den RDNA3-Chips deutlich anderes Bild: Navi 33 mit dem geringsten Sprung, Navi 31 mit einem zu AD102 sehr ähnlichen Sprung und letztlich Navi 32 mit einem vergleichsweise monströsen Rechenleistungs-Sprung. Dies hängt allerdings auch damit zusammen, dass das Navi-3X-Portfolio an der Spitze gänzlich anders konzipiert ist als das bisherige Navi-2X-Portfolio: Während bisher der erstbeste Chip "Navi 21" eine Recheneinheiten-Verdopplung des zweitbesten Chips "Navi 22" darstellt, liegen zwischen Navi 32 und Navi 31 in dieser Frage "nur" noch +50%. AMD setzt also im Navi-3X-Portfolio seinen zweitbesten Chip deutlich höher an als bisher, sinngemäß übernimmt eher "Navi 33" die bisherige Rolle von "Navi 22" als den Chip-Unterbau für Midrange-Grafikkarten.

6600XT vs 7700XT 6700XT vs 7800XT 6900XT vs 7900XT
Hardware RDNA2 Navi 23, 16 WGP @ 128 Bit GDDR6, ~2.5 GHz Navi 22, 20 WGP @ 192 Bit GDDR6, ~2.5 GHz Navi 21, 40 WGP @ 256 Bit GDDR6, ~2.3 GHz
Hardware RDNA3 Navi 33, 16 WGP @ 128 Bit GDDR6, ~2.8-3.0 GHz Navi 32, 32 WGP @ 256 Bit GDDR6, ~3.0-3.2 GHz Navi 31, 48 WGP @ 384 Bit GDDR6, ~2.9-3.0 GHz
Differenzen +100% mehr Rechenkraft pro WGP, +12-20% mehr Takt +60% mehr WGP, +100% mehr Rechenkraft pro WGP, +20-28% mehr Takt +20% mehr WGP, +100% mehr Rechenkraft pro WGP, +26-30% mehr Takt
Rohleistung (inkl. WGP-interne Steigerung) nominell 2,2-2,4fache nominell 3,8-4,1fache nominell 3,0-3,1fache
Performance-Prognose ca. 1,7-2,0fache ca. 2,4-3,0fache ca. 2,0-2,5fache
Anmerkung: Angaben zu noch nicht vorgestellter Hardware basieren auf Gerüchten & Annahmen

Im Endeffekt nähert sich AMD damit nur dem Portfolio-Aufbau von nVidia an, wo inzwischen nirgendwo mehr glatte Recheneinheiten-Verdopplungen zwischen zwei Grafikchips stehen. Dies dürfte AMD an der Leistungsspitze helfen, mit Navi 32 & Navi 31 gegenüber nVidias AD103 & AD102 besser konkurrieren zu können, ohne Kunstgriffe mit besonders stark abgespeckten Lösungen stärkerer Grafikchips bemühen zu müssen (wie beispielsweise die Radeon RX 6800, welche nur knapp besser als die GeForce RTX 3070 Ti ist, dafür aber auch auf einem deutlich größeren Grafikchip basiert). Nur bei Navi 33 kehrt AMD dann zum alten Schema der Recheneinheiten-Verdopplung bzw. -Halbierung zurück, weswegen es auch als ziemlicher Konsens gilt, dass Navi 33 so seine Schwierigkeiten mit nVidias AD104 haben dürfte. Aber natürlich ergeben sich die Feinheiten des Portfolio-Aufbau samt der dahinterstehenden Marketing/Verkaufs-Idee auch erst dann, wenn konkrete Grafikkarte mit offiziellen Listenpreisen vorgestellt werden.