22

News des 22. September 2022

Twitterer Greymon55 hat etwas von einem RDNA3-Launch um den 20. November herum gehört – und bekräftig damit, dass der bislang von AMD genannte 3. November nur ein Vorstellungs-Termin sein soll. Sicher sein sollte man sich diesbezüglich natürlich noch nicht, hierzu wäre eine Klarstellung seitens AMD von Nutzen. Zudem sollen die Grafikkarten-Hersteller derzeit noch nicht mit der Massenfertigung von RDNA3-Grafikkarten begonnen haben. An dieser Stelle muß man einschränkenderweise sagen, dass jedoch nicht klar ist, wie AMD diesen Launch begehen will: Gleich mit Herstellerdesigns vom ersten Tag an – oder für die ersten Wochen nur mit dem Referenzdesign. Um Leaks zu vermeiden, setzt man insbesondere beim Erstlingswerk einer neuen Generation/Architektur üblicherweise auf zweitere Variante. Der Ada-Lovelace-Launch ist hierzu die Ausnahme von der Regel – was jedoch schlicht damit zusammenhängt, dass dieser Launch eigentlich klar früher geplant war.

The AIBs haven't started mass production yet.
Quelle:  Greymon55 @ Twitter am 22. September 2022
 
I heard that the launch date is around November 20th. Of course, it is not excluded that November 3rd is the actual launch date, which needs further verification.
Quelle:  Greymon55 @ Twitter am 22. September 2022

Um es gegenüber der kürzlichen Meldung mit den Chip-Daten zum AD102-Chip nochmals plastischer zu machen: Die wichtigen Innereien der Shader-Cluster der Ada-Lovelace-Architektur sehen exakt so wie bei der Ampere-Architektur aus. Die vorherige Gerüchteküche war zu diesem Punkt schlicht falsch – wobei sich jenes Gerücht auch nicht all zu weit verbreitete, da für die meisten wohl zu technisch angelegt. Wichtig ist der Punkt, dass sich hieran auch die ganz hohen Performance-Prognosen ergeben haben – welche somit obsolet sind. Gerechnet von GeForce RTX 3090 auf 4090 wäre inklusive einer Shader-Cluster-Verbesserung durchaus die dreifache effektive Rohleistung möglich gewesen. Die Nichtexistenz jener Shader-Cluster-Verbesserung drückt die Rohleistungs-Verbesserung (in diesem konkreten Beispiel) auf +120%.

Pascal Turing Ampere ADA (Gerücht) ADA (real)
reine FP32-Einheiten pro SM - 64 64 angeblich 128 64
reine INT32-Einheiten pro SM - 64 - angeblich 64 -
Dual-Use FP32/INT32-Einheiten pro SM 128 - 64 angeblich keine 64
insgesamte FP32-Einheiten pro SM 128 64 128 angeblich 128 128
insgesamte INT32-Einheiten pro SM 128 64 64 angeblich 64 64
insgesamte FP32/INT32-Einheiten pro SM 128 128 128 angeblich 192 128
Level1-Cache pro SM 96 kB 96 kB 128 kB angeblich 192 128 kB

Ähnlich hohe Werte sind jedoch generell nur zwischen GA102 und AD102 erreichbar, da es nur dort eine deutlich höhere Anzahl an Shader-Clustern gibt (+71%). Bei den kleineren Ada-Grafikchips geht es deutlich nach unten, jene sind zumeist weit entfernt von +120% mehr nomineller Rohleistung – einfach weil die Anzahl der Shader-Cluster nicht derart stark steigt wie beim AD102-Chip. Nachfolgende Tabelle soll dies wiedergeben, ist aber natürlich inperfekt, da nur auf dem Vollausbau der jeweiligen Grafikchips sowie mit einheitlicher Taktrate kalkuliert. In der Praxis können die realen Grafikkarten wegen unterschiedlich starker Beschneidungen sowie hier und da höherer/niedriger Taktrate durchaus beachtbar von diesen Werten abweichen. Das zugrundliegende Prinzip sollte allerdings erkennbar sein: Den vollen Ada-Schub kann es nur an der Leistungsspitze geben, da die Hardware-Differenz mit den kleineren Ada-Chips immer geringer ausfällt.

Ampere Ada Lovelace Rohleistungsgewinn (Vollausbau)
GA102  (84 SM) AD102  (144 SM) +71% SM, +47% Takt = +151%
GA103  (60 SM) AD103  (84 SM) +40% SM, +47% Takt = +106%
GA104  (48 SM) AD104  (60 SM) +25% SM, +47% Takt = +84%
GA106  (30 SM) AD106  (36 SM) +20% SM, +47% Takt = +76%
GA107  (20 SM) AD107  (24 SM) +20% SM, +47% Takt = +76%
benutzte Taktraten für diese Beispielrechnung: 1.7 (Ampere) & 2.5 GHz (Ada)

Hardwareluxx-Mitarbeiter Andreas Schilling @ Twitter liefert die bislang noch fehlenden Angaben zum Level2-Cache von AD102 nach: Der Vollausbau tritt mit 96 MB an (GA102: 6 MB), die GeForce RTX 4090 Grafikkarte hingegen mit 72 MB. In dieser Frage hat die Gerüchteküche somit zu 100% richtig gelegen. Mittels der kleinen Cache-Beschneidung bei der GeForce RTX 4090 dürfte nVidia jene Karte kaum großartig limitieren, holt aber sicherlich den einen oder anderen Prozentpunkt heraus, welcher dann später einer AD102-Karte im Vollausbau ("GeForce RTX 4090 Ti" oder "Ada Titan") zugutekommen kann. Generell hat nVidia die Hardware der GeForce RTX 4090 bewußt derart angesetzt, dass das später folgende eigentliche Flaggschiff dann einen wirklichen Performance-Abstand erreichen kann: +20-25% auf die GeForce RTX 4090 oben drauf sind (unter hochgerissener Wattage) denkbar.

Info on the L2 cache for Ada Lovelace / AD102:
The full AD102 GPU includes 98,304 KB of L2 cache (a 16x increase over the 6,144 KB in a full GA102).
The GeForce RTX 4090 includes 73,728 KB of L2 cache (a 12x increase over the 6144 KB in the GeForce RTX 3090 Ti).

Quelle:  Andreas Schilling @ Twitter am 22. September 2022

Twitterer Kopite7kimi notiert hingegen das Taktraten-Limit der GeForce RTX 4090 – von immerhin 3.45 GHz. Dies ist dann üblicherweise jener Wert, welcher im BIOS als Maximaltakt hinterlegt ist, sicherlich bezogen rein auf nVidias eigene "Founders Edition". Dies sagt nicht aus, dass man diesen Takt irgendwann im Normalzustand oder auch im Übertaktungs-Betrieb sieht, sondern dies ist einfach nur ein absoluter Grenzwert. Dies gilt genauso auch für selbigen Maximaltakt bei Navi 31, welcher mit 3.72 GHz nicht wesentlich höher angesetzt ist. Hierzu gab es den doppelten Hinweis, dass der Maximaltakt bei Navi 21 sogar bei 3.0 GHz bei der Radeon RX 6900 XT liegt. Anders formuliert kann man hieran erkennen, dass jener Maximal-Takt durchaus sehr weit vom regulären Takt entfernt sein kann (2.25 GHz offizieller Boost-Takt bei der Radeon RX 6900 XT).

The limit of RTX 4090 is 3.45GHz.
Quelle:  Kopite7kimi @ Twitter am 22. September 2022