8

Gerüchteküche: GeForce RTX 4090 laut nVidia-eigenen Benchmarks doppelt so schnell wie GeForce RTX 3090

Update: Die zugrundeliegende Information kommt von einem Troll/Fake-Account, womit sich die gesamte Meldung erübrigt.

Von Twitterer QbitLeaks kommen (angebliche) nVidia-eigene GeForce RTX 40 Benchmarks, welche aus dem Entwurf eines "Ada"-Whitepapers stammen sollen. Gezeigt werden relative Zugewinne unter 6 Spielen und 3 Rendering-Anwendungen, mutmaßlicherweise in der höchstmöglichen Auflösung sowie unter Einsatz von RayTracing. Leider feht eine Angabe, um welche RTX40-Grafikkarte gegen welche frühere nVidia-Karte es sich bei diesen Zahlen handelt, an dieser Stelle kann man nur schätzen. Es soll sich zumindest nicht um das Ada-Flaggschiff handeln – was aber auch wieder ein auslegbarer Begriff ist, denn zwar wird die GeForce RTX 4090 vorerst das Top-Modell der Ada-Serie geben, mittelfristig steht allerdings noch eine stärkere AD102-Lösung im Vollausbau jenes Grafikchips als eigentliches "Flaggschiff" an.

Die sinnvollste Auflösung ist somit nach wie vor, dass es sich um Benchmarks GeForce RTX 3090 gegen 4090 handelt: Die GeForce RTX 4090 ist demnächst anstehend und jene verheißt auch den höchsten relativen Performance-Gewinn der in Sichtweite befindlichen RTX40-Karten – etwas, was man zu GeForce RTX 4080 und kleiner nicht behaupten kann. Und als Vergleichsgröße benutzt nVidia üblicherweise den direkten Namensvetter – schon allein deshalb, weil dies auch wieder die höheren relativen Performance-Gewinne ergibt. Denn im groben rechnet sich nVidia glatt die doppelte Performance in diesem augenscheinlichen Generations-Vergleich zwischen "Ampere" und "Ada Lovelace" aus, was sogar höher liegt das der zur GeForce RTX 4090 geleakte TSE-Benchmarkwert (+86%). Machbar ist dies aufgrund der technischen Ansetzung durchaus: Die GeForce RTX 4090 wird auf die GeForce RTX 3090 +56% mehr Shader-Cluster sowie +48% mehr Chiptakt oben drauf legen, kumuliert ergibt dies schon +131% mehr nominelle Rechenleistung.

Logischerweise fallen da in der Praxis deutliche Abschläge an, insbesondere breitere Hardware skaliert deutlich schlechter als 1:1. Allerdings kann nVidia zusätzlich auch noch die interne Verbesserungen der Ada-Lovelace-Architektur anbringen: Die Verbreiterung der Shader-Cluster kann den Insgesamt-Durchsatz selbiger um immerhin +36% steigern, wo dies durchaus sehr Code- und damit Software-abhängig ist. In der Summe war eine glatte Performance-Verdopplung unter realer Software allerdings immer im Bereich des Möglichen, der Rohleistungs-Sprung kann effektiv immerhin mehr als das Dreifache erreichen. Wegen des unterschiedlich starken Effekts der Verbreiterung der Shader-Cluster kann die Performance-Skalierung in der Praxis allerdings beachtbar schwanken – je nachdem ob ein Spiel auf die genannte Architektur-Veränderung reagiert oder nicht.

Zu sehr kann man sich auf diese Benchmarks derzeit allerdings auch nicht versteifen: Nach wie vor ist das ganze nur ein Gerücht aus einer bislang kaum in Erscheinung getretenen Quelle – selbst wenn die kürzlich von 'QbitLeaks' geposteten GeForce RTX 4090 Render-Bilder andeuten, dass da durchaus Zugang zu ernsthaften Informationen existiert. Daneben besteht eine Rest-Unsicherheit ob der für diese Benchmarks benutzten Grafikkarten, zugleich könnte die konkrete Höhe der Performance-Differenz durchaus einen gewissen Hersteller-Bias enthalten (sprich im Rahmen unabhängiger Tests etwas kleiner ausfallen) sowie sich rein auf die RayTracing-Performance beziehen. Leider wird sich wohl erst im Nachhinein bestätigen lassen, ob dieses Gerücht "wahrhaftig" ist oder halt nicht – womit der derzeitige Informationsgewinn doch kleiner ausfällt, als nach dem ersten Blick auf das Benchmark-Diagramm gedacht.

GeForce RTX 3090 GeForce RTX 3090 Ti GeForce RTX 4090
Chip-Basis nVidia GA102-300 nVidia GA102-350 nVidia AD102-300
Raster-Engines 7 GPC 7 GPC vermtl. 11 GPC
Recheneinheiten 82 Shader-Cluster, 5248 FP32 + 5248 FP32/INT32 (10'496 Recheneinheiten insgesamt) 84 Shader-Cluster, 5376 FP32 + 5376 FP32/INT32 (10'752 Recheneinheiten insgesamt) 128 Shader-Cluster, 16'384 FP32 + 8192 INT32 (24'576 Recheneinheiten insgesamt)
Taktraten 1400/1700 MHz (real ~1.8 GHz) 1560/1860 MHz (real ~1.95 GHz) 2235/2520 MHz
ROPs 112 112 vermtl. 352
Level2-Cache 6 MB 6 MB 72 MB
Speicherinterface 384 Bit GDDR6X 384 Bit GDDR6X 384 Bit GDDR6X
Speicher 24 GB GDDR6X @ 19,5 Gbps 24 GB GDDR6X @ 21 Gbps 24 GB GDDR6X @ 21 Gbps (?)
Rohleistungen 35,7 TFlops & 936 GB/sec 40,0 TFlops & 1008 GB/sec 82,6 TFlops & 1008 GB/sec
Stromverbrauch 350W TDP / real 359W 450W TDP / real 462W 450W TDP
4K Perf.-Index 376% 408% ?
Listenpreis $1499 / 1649€ $1999 / 2249€ ?
Launch 24. September 2020 29. März 2022 vermtl. Oktober 2022
Anmerkung: alle Angaben zu noch nicht vorgestellter Hardware basieren auf Gerüchten & Annahmen

Nochmals zu betonen wäre, dass der hiermit aufgezeigte Generations-Gewinn zwischen "Ampere" und "Ada Lovelace" nur bei AD102-basierten Grafikkarten derart hoch ausfallen kann. Alle RTX40-Grafikkarten basierend auf kleineren Ada-Grafikchips haben eine klar geringere Hardware-Differenz gegenüber ihren Ampere-Vorgängern. Zwar dürfte der Taktraten-Sprung ähnlich hoch ausfallen und natürlich gibt es auch die genannten Architektur-Verbesserungen, doch der Sprung bei der Anzahl an Shader-Clustern fällt unterhalb des AD102-Chips (+71%) teilweise drastisch niedriger aus: +40% beim AD103-Chip, +25% beim AD104-Chip und +20% bei AD106 & AD107. Das Performance-Potential der RTX40-Grafikkarten unterhalb der GeForce RTX 4090 kann ergo niemals beim Doppelten gegenüber dem jeweiligen RTX30-Vorgänger liegen, sondern wäre grob 30 Punkte niedriger anzusetzen (= maximal +70%, sofern AD102 +100% erreicht).

Hardware FP32 Interface L2-Cache Speicher Vorgänger +SM
AD102 12 GPC, 72 TPC, 144 SM 18'432 384 Bit 96 MB 24 GB GA102: 7 GPC, 84 SM @ 384 Bit, 6 MB L2 +71%
AD103 7 GPC, 42 TPC, 84 SM 10'752 256 Bit 64 MB 16 GB GA103: 6 GPC, 60 SM @ 320 Bit, 4 MB L2 +40%
AD104 5 GPC, 30 TPC, 60 SM 7680 192 Bit 48 MB 12 GB GA104: 6 GPC, 48 SM @ 256 Bit, 4 MB L2 +25%
AD106 3 GPC, 18 TPC, 36 SM 4608 128 Bit 32 MB 8 GB GA106: 3 GPC, 30 SM @ 192 Bit, 3 MB L2 +20%
AD107 3 GPC, 12 TPC, 24 SM 3072 128 Bit 32 MB 8 GB GA107: 2 GPC, 20 SM @ 128 Bit, 2 MB L2 +20%
Anmerkung: Angaben zu noch nicht vorgestellter Hardware basieren auf Gerüchten & Annahmen

Update: Die zugrundeliegende Information kommt von einem Troll/Fake-Account, womit sich die gesamte Meldung erübrigt.