Launch-Analyse nVidia GeForce RTX 4090

Sonntag, 16. Oktober 2022
 / von Leonidas
 

Mit der GeForce RTX 4090 läutet nVidia eine neue Grafikchip- und damit Grafikkarten-Generation ein: Architektur-seitig kommt hierbei erstmals die "Ada Lovelace" Architektur in Form des "AD102"-Grafikchips zum Einsatz, welche im Verkauf dann in der "GeForce RTX 40" Serie mit der GeForce RTX 4090 als erster Grafikkarte hieraus resultiert. Versprochen wurde seitens nVidia ein erheblicher bis drastischer Performance-Sprung, letzterer allerdings nur zu erzielen unter Einsatz von "Hilfsmitteln" wie dem neuen Upscaler DLSS3. Nach den Launchreviews zur Founders Edition am 11. Oktober sowie den Launchreviews zu den Herstellerdesign samt dem gemeinsamen Marktstart am 12. Oktober soll die nachfolgende Launch-Analyse die (massig) angefallenen Benchmark-Werte zur neuen nVidia-Karte sammeln und in Form bringen, so dass sich ein belastbares Performance-Bild über die neue Situation im Enthusiasten-Segment ergibt.

Die zugrundeliegende "Ada Lovelace" Architektur kann man generell als "Ampere auf Stereoiden" beschreiben: Alles wurde größer und schneller gemacht, während sich die Anzahl der reinen Architektur-Veränderungen im Rahmen hält. Dies zeigt sich am deutlichsten im Vergleich von alter gegen neuer Top-Chip: Der GA102-Chip der GeForce RTX 3080/3090 Serien tritt mit 84 Shader-Clustern an, der AD102-Chip gleich mit 144 Shader-Clustern (+71%). Zuzüglich wechselt die komplette Chip-Familie von der 8nm-Fertigung seitens Samsung auf die "4N"-Fertigung seitens TSMC ("4N" ist eine nVidia-Anpassung der 5nm-Fertigung). Dies bringt satt mehr Taktraten-Möglichkeiten mit sich – und ermöglicht nebenbei auch den Hardware-Sprung selber, denn der AD102-Chip ist mit 609mm² Chipfläche sogar etwas kleiner ausgefallen als der bisherige GA102-Chip mit 628mm².

Ein interessanter Punkt am Chip-Design ist der stark angewachsene Level2-Cache: Gab es vorher nur maximal 6 MB bei den nVidia-Chips, geht der AD102 hier gleich auf 96 MB nach oben. Faktisch handelt es sich um den gleichen Ansatz wie bei AMDs "Infinity Cache" – nur dass dies nVidia nicht so recht zugeben will und kaum etwas zu dieser eigentlich wichtigen Innovation zu sagen hatte. Dabei verhindert der große Level2-Cache von AD102 effektiv, dass der Grafikchip bei der Breite des Speicherinterfaces wachsen muß – was ansonsten auf Basis der viel dickeren Hardware nahezu obligatorisch wäre. Doch große Speicherinterface erfordern umso teurere Platinen und sind zudem als gewichtige Stromverbraucher bekannt, ergo sucht man hierbei gern nach anderen Wegen – und hat jenen bei AMD wie nun auch nVidia in Form großer Caches gefunden.

    nVidia AD102

  • "Ada Lovelace" Architektur
  • 76,3 Mrd. Transistoren auf 608,5mm² Chipfläche unter der "4N"-Fertigung von TSMC
  • 12 Raster-Engines (GPC) mit jeweils 6 Texture Processing Cluster (TPC) und 12 "Streaming Multiprocessors" (SM) aka Shader-Clustern (= 144 Shader-Cluster insgesamt)
  • ein Shader-Cluster enthält jeweils 64 FP32-Einheiten, 64 FP32/INT32-Einheiten, 4 Textureneinheiten (TMUs), einen RT-Core v3, vier Tensor-Cores v4, 128 kByte Level1-Cache
  • ergibt für den gesamten Grafikchip 12 Raster-Engines, 72 TPC, 144 Shader-Cluster, 9216 FP32-Einheiten, 9216 FP32/INT32-Einheiten (somit 18'432 FP32-Einheiten, wenn man keine INT32-Berechnungen laufen hat), 576 Textureneinheiten (TMUs), 144 RT-Core v3, 576 Tensor-Cores v4
  • 16 ROPs pro Raster-Engine (= 192 ROPs insgesamt)
  • 96 MB Level2-Cache
  • 384 Bit GDDR6X-Speicherinterface
  • PCI Express 4.0 x16 Interface
  • kein NVLink mehr
  • rBAR, DLSS3, HDMI 2.1a, DisplayPort 1.4a
  • resultierende Grafikkarte: GeForce RTX 4090 (nur 11 GPC mit 128 SM, 16'384 FP32-Einheiten)

Als technologische Innovationen hat nVidia mit der "Ada Lovelace" Architektur maßgeblich nur zwei neue Features zu bieten: Mittels "Shader Execution Reordering" (SER) will man die Grafikchip-Pipeline unter RayTracing besser auslasten. Dies kann laut nVidia zu starken Performance-Gewinnen führen, in einem konkreten Test mit Cyberpunk 2077 ergab sich eine Performance-Steigerung von +44%. Allerdings erfordert das Feature die Einbindung durch den Spiele-Entwickler, augenscheinlich direkt bei der Spiele-Programmierung. Dies bedeutet, dass es seine Zeit brauchen wird, ehe man dessen Effekt über ein breites Benchmark-Feld hinweg sehen kann. Für den Augenblick bringt "SER" somit noch gar nichts, dies trägt "nur" zur langfristig wirksamen Performance-Steigerungen der "Ada Lovelace" Generation (wie gesagt rein im RayTracing-Feld) bei.

Das andere, deutlich in den Vordergrund gestellte Feature ist "DLSS3" als eine Erweiterung des bisherig bekannten Upscalers "DLSS2". Bei der dritten Version von DLSS kommt nunmehr – exklusiv für Ada-Lovelace-Hardware – eine Zwischenbild-Berechnung hinzu, welche ergo die Framerate gegenüber nativem Rendering verdoppeln kann. Das technische Verfahren hierzu ist wesentlich ausgeklügelter als von derselben Technik auf Fernsehern bekannt, geht damit allerdings auch das Risiko von Fehldarstellungen ein. DLSS3 muß wie DLSS2 vom Spiele-Entwickler eingebunden werden, was jedoch vergleichsweise einfach funktioniert und somit einen recht breitflächigen Support seitens der Spiele-Entwickler erwarten läßt. Als ganz großen Vorteil von DLSS3 kann man ansehen, dass alle Zwischenbilder unabhängig der CPU berechnet werden – man somit also die Möglichkeit an der Hand bekommt, eine Frameraten-Verdopplung auch unter CPU-limitierte Sequenzen und -Spieletiteln zu erreichen.

Aus jenem Vorteil ergibt sich allerdings auch der Prinzip-bedingte Nachteil von DLSS3: Da die Zwischenbilder rein in der Grafikkarte entstehen, existieren jene für die Spiele-Engine nicht. Damit gibt es für die Zwischenbilder auch keinerlei Effekte von Spiel-Physik, Spiele-Engine und durch Eingaben, unter DLSS3 reagiert nur jedes zweite auf dem Monitor zu sehende Bild auf Benutzer-Eingaben. Die Latenz des Spiels wird durch die höhere Framerate somit auch nicht verbessert, sondern bleibt gegenüber der Variante ohne DLSS3 gleich (in der Praxis sogar leicht höher). Unabhängig der sehr unterschiedlichen Nutzer-Meinungen zu DLSS3 darf zudem der Punkt gelten, dass ein Upscaler zur Frameraten-Verbesserung eher etwas für kleinere Grafikkarten des Portfolios ist. Gerade bei einer GeForce RTX 4090 sollte DLSS3 keine große Relevanz entwickeln können, dafür ist die Performance der neuen nVidia-Grafikkarte unter nativem Rendering einfach viel zu hoch.

Die GeForce RTX 4090 stellt dann eine klare Abspeckung des AD102-Grafikchips dar, nVidia hat sich hierbei mit 128 freigeschalteten Shader-Clustern gegenüber 144 physikalisch im Vollausbau vorhandenen Shader-Clustern einiges an Reserven gelassen. Während man bei der seinerzeitigen GeForce RTX 3090 (82 von 84 Shader-Clustern) die später nachfolgende GeForce RTX 3090 Ti nicht zwingend vorhersagen konnte, kann man eine selbige Vorhersage zur GeForce RTX 4090 sehr wohl treffen: Hier kommt wohl noch eine "GeForce RTX 4090 Ti" oder "Ada Titan" nach, ob direkt im Vollausbau des AD102-Chips oder minimal darunter gelegen. Und jener Nachfolger könnte sogar recht bald erscheinen: Je nachdem wie gut AMDs Navi-31-Chip ausfällt, könnte sich nVidia zu einem schnellen Konter schon Anfang 2023 gemüßigt fühlen. Dies ändert nichts an der jetzigen GeForce RTX 4090, aber es nimmt der Karte etwas von ihrem "Topdog"-Effekt, wenn jener womöglich nur recht kurz anhält.

GeForce RTX 4090 AD102-Vollausbau Differenz
Raster-Engines (GPC) 11 12 +9%
Shader-Cluster (SM) 128 144 +12%
FP32-Einheiten 16'384 18'432 +12%
ROPs 176 192 +9%
Level2-Cache 72 MB 96 MB +33%
Speicherinterface 384 Bit GDDR6X 384 Bit GDDR6X ±0

Preislich ist die GeForce RTX 4090 mit 1599 Dollar bzw. 1949 Euro bereits ausreichend weit oben angesetzt – selbst wenn auch hier (im nVidia-Maßstab) noch die Reserve für ein später nachfolgendes eigentliches Top-Modell zu sehen ist. Nominell sind dies "nur" 100 Dollar Preissteigerung gegenüber der GeForce RTX 3090, allerdings werden alle Kontrahenten der GeForce RTX 4090 derzeit zu Abverkaufspreisen weit unterhalb Listenpreis angeboten. Hinzukommend den Punkt, dass die GeForce RTX 4090 derzeit von den Einzelhändlern klar oberhalb Listenpreis angeboten wird, ergibt sich insgesamt die Situation eines extremen Preis-Unterschieds gegenüber der Alt-Generation: Zu Straßenpreisen kostet die GeForce RTX 4090 derzeit immerhin grob das Doppelte gegenüber einer GeForce RTX 3090.

Radeon RX 6950 XT GeForce RTX 3090 GeForce RTX 3090 Ti GeForce RTX 4090
Chipbasis AMD Navi 21 KXTX nVidia GA102-300 nVidia GA102-350 nVidia AD102-300
Fertigung 26,8 Mrd. Transistoren auf 519mm² Chipfäche in der 7nm-Fertigung von TSMC 28,3 Mrd. Transistoren auf 628mm² Chipfäche in der 8nm-Fertigung von Samsung 76,3 Mrd. Transistoren auf 609mm² Chipfäche in der 4nm-Fertigung von TSMC
Architektur AMD RDNA2, DirectX 12 Feature-Level 12_2 nVidia Ampere, DirectX 12 Feature-Level 12_2 nVidia Ada Lovelace, DirectX 12 Feature-Level 12_2
Features DirectX 12, OpenGL, Vulkan, RayTracing, VSR, FSR 1/2, RSR, FreeSync, TrueAudio Next, XConnect, rBAR DirectX 12, OpenGL, Vulkan, RayTracing, DSR, DLDSR, DLSS 2, PhysX, G-Sync, FreeSync, rBAR DirectX 12, OpenGL, Vulkan, RayTracing, DSR, DLDSR, DLSS 2/3, PhysX, G-Sync, FreeSync, rBAR
Technik 4 Raster-Engines, 80 Shader-Cluster, 5120 FP32-Einheiten, 320 TMUs, 80 RA-Einheiten, 128 ROPs, 4 MB Level2-Cache, 128 MB "Infinity Cache", 256 Bit GDDR6-Interface (Vollausbau) 7 Raster-Engines, 82 Shader-Cluster, 10'496 FP32-Einheiten, 328 TMUs, 82 RT-Cores v2, 328 Tensor-Cores v3, 112 ROPs, 6 MB Level2-Cache, 384 Bit GDDR6X-Interface (Salvage) 7 Raster-Engines, 84 Shader-Cluster, 10'752 FP32-Einheiten, 336 TMUs, 84 RT-Cores v2, 336 Tensor-Cores v3, 112 ROPs, 6 MB Level2-Cache, 384 Bit GDDR6X-Interface (Vollausbau) 11 Raster-Engines, 128 Shader-Cluster, 16'384 FP32-Einheiten, 512 TMUs, 128 RT-Cores v3, 512 Tensor-Cores v4, 176 ROPs, 72 MB Level2-Cache, 384 Bit GDDR6X-Interface (Salvage)
Taktraten 1890/2100/2310 MHz @ 18 Gbps 1400/1700 MHz & 19,5 Gbps 1560/1860 MHz & 21 Gbps 2235/2520 MHz & 21 Gbps
Rohleistungen 21,5 TFlops & 576 GB/sec 35,7 TFlops & 936 GB/sec 40,0 TFlops & 1008 GB/sec 82,6 TFlops & 1008 GB/sec
Speicherausbau 16 GB GDDR6 24 GB GDDR6X 24 GB GDDR6X 24 GB GDDR6X
Anbindung PCI Express 4.0 PCI Express 4.0 PCI Express 4.0 PCI Express 4.0
Ref/AIBs/OC / / / / / / / /
Layout Dual-, Triple- & QuadSlot Single-, Dual- & TripleSlot Dual-, Triple- & QuadSlot Dual-, Triple- & QuadSlot
Kartenlänge Ref: 27,0cm
AIBs: 26,6-34,5cm
FE: 31,3cm
AIBs: 21,6-33,9cm
FE: 31,3cm
AIBs: 22,0-35,6cm
FE: 30,5cm
AIBs: 20,0-36,7cm
Stromstecker 2x 8pol. 1x 12pol. 1x 16pol. 1x 16pol.
off. Verbrauch 335W  (ASIC: 284W) 350W 450W 450W
Real-Verbrauch 348W 359W 462W 418W
Ausgänge HDMI 2.1, 2x DisplayPort 1.4a, USB Type-C HDMI 2.1, 3x DisplayPort 1.4a HDMI 2.1, 3x DisplayPort 1.4a HDMI 2.1, 3x DisplayPort 1.4a
FHD Perf.Index 2230% 2100% 2200% 2760%
4K Perf.Index 368% 376% 410% 640%
Listenpreis $1099 / 1239€ $1499 / 1649€ $1999 / 2249€ $1599 / 1949€
Straßenpreis 900-1000 Euro 1080-1200 Euro 1200-1300 Euro 2300-2650 Euro
Release 10. Mai 2022 24. September 2020 29. März 2022 12. Oktober 2022

Die neue TSMC-Fertigung sieht man deutlich an den nominellen wie real erzielten Taktraten: 2.52 GHz Boost-Takt und gemittelt 2.73 GHz Real-Takt sind hohe Hausnummern für einen Grafikbeschleuniger basierend auf einem derart großen Chip. Teilweise erzielen RDNA2-Grafiklösung auf Basis der nunmehr zurückhängenden 7nm-Fertigung zwar ähnlich hohe Taktraten, dies aber regelmäßig erst bei den kleineren Grafikchips des Portfolios. Die hohe Taktrate der GeForce RTX 4090 ist damit bezüglich des erzielten Rohleistungs-Vorteil ähnlich wichtig wie der reine Hardware-Sprung: Von GeForce RTX 3090 zu 4090 gibt es +56% mehr Shader-Cluster, zuzüglich +52% Taktraten-Vorteil. In der Praxis dürfte der Taktraten-Vorteil sogar wirkmächtiger sein, denn der Effekt von mehr Hardware-Einheiten reduziert sich üblicherweise durch die gleichfalls ansteigende Schwierigkeit einer vernünftigen Hardware-Auslastung.

Basis Durchschnitt Max gemessener Realtakt
AMD-Bezeichnung: "Base Clock" "Game Clock" "Boost Clock" "Max Clock" CB TPU PCGH
Radeon RX 6950 XT 1890 MHz 2100 MHz 2310 MHz ? 2392 MHz 2405 MHz 2.42 GHz
Radeon RX 6900 XT 1825 MHz 2015 MHz 2250 MHz ? 2265 MHz 2233 MHz 2.30 GHz
Radeon RX 6800 XT 1825 MHz 2015 MHz 2250 MHz ? 2216 MHz 2257 MHz 2.34 GHz
Radeon RX 6800 1700 MHz 1815 MHz 2105 MHz ? 2177 MHz 2205 MHz 2.20 GHz
Radeon RX 6750 XT 2150 MHz 2495 MHz 2600 MHz ? 2683 MHz - 2.63 GHz
Radeon RX 6700 XT 2321 MHz 2424 MHz 2581 MHz ? 2531 MHz 2491 MHz 2.54 GHz
Radeon RX 6650 XT 2055 MHz 2410 MHz 2635 MHz ? 2601 MHz - 2.68 GHz
Radeon RX 6600 XT 1968 MHz 2359 MHz 2589 MHz ? 2562 MHz - 2.58 GHz
Radeon RX 6600 1626 MHz 2044 MHz 2491 MHz ? 2509 MHz 2444 MHz 2.51 GHz
Radeon RX 6500 XT 2310 MHz 2610 MHz 2815 MHz ? 2753 MHz - 2.82 GHz
nVidia-Bezeichnung: "Base Clock" "Boost Clock" "Max Clock" CB TPU PCGH
GeForce RTX 4090 2235 MHz 2520 MHz ? 2744 MHz 2701 MHz 2.74 GHz
GeForce RTX 3090 Ti 1560 MHz 1860 MHz ? 1936 MHz 1979 MHz 2.00 GHz
GeForce RTX 3090 1400 MHz 1700 MHz ? 1754 MHz - 1.88 GHz
GeForce RTX 3080 Ti 1365 MHz 1665 MHz ? 1784 MHz 1780 MHz 1.80 GHz
GeForce RTX 3080 12GB 1260 MHz 1710 MHz ? - - 1.80 GHz
GeForce RTX 3080 10GB 1450 MHz 1710 MHz ? 1827 MHz 1931 MHz 1.90 GHz
GeForce RTX 3070 Ti 1575 MHz 1770 MHz ? 1878 MHz 1861 MHz 1.88 GHz
GeForce RTX 3070 1500 MHz 1725 MHz ? 1920 MHz 1882 MHz 1.86 GHz
GeForce RTX 3060 Ti 1410 MHz 1665 MHz ? 1900 MHz 1877 MHz 1.83 GHz
GeForce RTX 3060 1320 MHz 1777 MHz ? - - 1.87 GHz
GeForce RTX 3050 1552 MHz 1777 MHz ? 1891 MHz 1906 MHz 1.89 GHz
Intel-Bezeichnung: - "Graphics Clock" "Max Clock" CB TPU PCGH
Arc A770 "LE" - 2100 MHz 2400 MHz - 2386 MHz 2.33 GHz
Arc A750 - 2050 MHz 2400 MHz - 2394 MHz 2.39 GHz
Realtakt-Angaben gemäß den Ausarbeitungen der ComputerBase (Ø 17-20 Spiele) und von TechPowerUp (Ø 22-25 Spiele) sowie den Praxis-Angaben der PC Games Hardware von jeweils Referenz-Varianten (oder auf Referenz-Taktung/TDP laufend)