Launch-Analyse nVidia GeForce RTX 3080

Dienstag, 22. September 2020
 / von Leonidas
 

Mit dem Launch der GeForce RTX 3080 gibt nVidia den Startschuß zu einer neuen Grafikkarten-Generation basierend auf einer neuen Technik-Grundlage in Form der Ampere-Architektur. Jene soll mal wieder ein ordentliches Performance-Plus ohne dafür allerdings steigende Grafikkarten-Preise bieten – ein Punkt, welcher bei der vorhergehenden Turing-Generation (anfänglich) nicht gegeben war und welchen nVidia mittels der Ampere-Generation korrigieren möchte. Das Erstlingswerk "GeForce RTX 3080" beerbt dabei die vorherigen GeForce RTX 2080 & 2080 Super Karten zum selben Preispunkt, soll aber dennoch klar schneller als die (teurere) GeForce RTX 2080 Ti herauskommen. Mittels der nachfolgenden Launch-Analyse soll zusammengetragen werden, was die Launchreviews an relevanten Informationen zu bieten haben, mit Konzentration auf die übliche Werte-Verdichtung in den Bereichen Performance und Stromverbrauch.

Nachdem die Turing-Generation mittels der 12nm-Fertigung von TSMC nur eine gewisse Verbesserung auf Fertigungs-Ebene gegenüber der vorhergehenden Pascal-Generation (16nm TSMC) darstellte, kann nVidia mittels der 8nm-Fertigung von Samsung nunmehr eine wirklich bessere Chipfertigung aufbieten: Jener 8nm-Prozeß stellt ein Derivat von Samsungs 10nm-Prozeß und damit nominell einen Fullnode-Sprung gegenüber dem 14/16nm-Prozeß dar. Allerdings sind die praktischen Differenzen zwischen 16/14nm und 10nm nicht wirklich auf der Höhe eines Fullnode-Sprungs, zudem ist auch nicht sicher, ob sich Samsungs 10/8nm-Fertigung gut mit TSMCs 10nm-Fertigung vergleichen läßt. nVidia realisiert augenscheinlich einen erheblichen Packdichte-Vorteil mit Samsungs 8nm-Fertigung, deren elektrische Eigenschaften (in Bezug auf Stromverbrauch und erreichbare Taktraten) jedoch in der Praxis kaum einen größeren Vorteil gegenüber TSMCs 12nm-Fertigung anzeigen.

nVidia "Ampere" GA104 nVidia "Ampere" GA102
Chip 17,4 Mrd. Transistoren auf 392mm² Chipfläche in der 8nm-Fertigung von Samsung 28,3 Mrd. Transistoren auf 628mm² Chipfläche in der 8nm-Fertigung von Samsung
Hardware 6 Raster-Engines, 48 Shader-Cluster, 6144 FP32-Einheiten, 192 TMUs, 48 RT-Cores, 192 Tensor-Cores, 96 ROPs, 4 MB Level2-Cache, 256 Bit GDDR6-Interface 7 Raster-Engines, 84 Shader-Cluster, 10752 FP32-Einheiten, 336 TMUs, 84 RT-Cores, 336 Tensor-Cores, 112 ROPs, 6 MB Level2-Cache, 384 Bit GDDR6X-Interface
NVLink & SLI - NVLink nur bei der GeForce RTX 3090, kein Support für "implicit SLI" mehr
verbaut bei GeForce RTX 3060 Ti & 3070 (beide Salvage) GeForce RTX 3080 & 3090 (beide Salvage)
Turing-Vorgänger TU104, 13,6 Mrd. Transistoren auf 545mm² Chipfläche in der 12nm-Fertigung von TSMC, 6 Raster-Engines, 48 Shader-Cluster, 3072 FP32-Einheiten, 192 TMUs, 48 RT-Cores, 384 Tensor-Cores, 64 ROPs, 4 MB Level2-Cache, 256 Bit GDDR6-Interface, verbaut bei GeForce RTX 2070 Super, 2080 & 2080 Super TU102, 18,6 Mrd. Transistoren auf 754mm² Chipfläche in der 12nm-Fertigung von TSMC, 6 Raster-Engines, 72 Shader-Cluster, 4608 FP32-Einheiten, 288 TMUs, 72 RT-Cores, 576 Tensor-Cores, 96 ROPs, 6 MB Level2-Cache, 384 Bit GDDR6-Interface, verbaut bei GeForce RTX 2080 Ti & Titan RTX
Pascal-Vorgänger GP104, 7,2 Mrd. Transistoren auf 314mm² Chipfläche in der 16nm-Fertigung von TSMC, 4 Raster-Engines, 20 Shader-Cluster, 2560 FP32-Einheiten, 160 TMUs, 64 ROPs, 2 MB Level2-Cache, 256 Bit GDDR5X-Interface, verbaut bei GeForce GTX 1070, 1070 Ti & 1080 GP102, 12 Mrd. Transistoren auf 471mm² Chipfläche in der 16nm-Fertigung von TSMC, 6 Raster-Engines, 30 Shader-Cluster, 3840 FP32-Einheiten, 256 TMUs, 96 ROPs, 3 MB Level2-Cache, 384 Bit GDDR5X-Interface, verbaut bei GeForce GTX 1080 Ti, Titan X & Titan Xp

Die damit realisierte Ampere-Architektur weisst im Gaming-Bereich (den Ampere-Chips außerhalb des GA100) gegenüber dem HPC-Chip "GA100" zwei bedeutsame Unterschiede auf: Zum einen führt der GA100-Chip auch weiterhin keine RayTracing-Kerne in den Shader-Clustern, zum anderen gibt es bei "Gaming-Ampere" nunmehr verdoppelte FP32-Einheiten pro Shader-Cluster – HPC-Ampere und Gaming-Ampere unterscheiden sich somit substantiell. Letztgenannte Änderung stellt auch den bedeutsamsten Unterschied gegen der vorhergehenden Turing-Generation dar, hiermit wird nominell der doppelten FP32-Durchsatz erzielt – was allerdings nicht direkt in eine doppelte Rohpower oder gar doppelte Performance umgemünzt werden kann. Denn nVidia hat daneben vergleichsweise wenig an der Architektur verändert, ergo müssen nunmehr grob dieselbe Anzahl an Raster-Engines und dieselbe Verwaltungs-Logik die doppelte Anzahl an FP32-Einheiten mit Arbeit füttern – was logischerweise nicht ganz ohne Effizienzverluste vonstatten gehen kann.

Zum anderen können die Shader-Cluster von Gaming-Ampere pro Takt nur entweder 64x FP32 + 64x INT32 ausführen (exakt wie bei Turing) – oder aber allein 128x FP32. Jene FP32-Verdopplung kann also selbst bestenfalls nur zur Zeiten wirken, wo kein INT32-Code ansteht – was derzeit laut nVidia in grob 75% der Rechenzeit unter Spielen der Fall sein soll. Diese +75% stellen also das theoretische Maximum dar, was die Shader-Cluster von Gaming-Ampere im Idealfall herausholen könnten – bei bestmöglicher Auslastung und keinen Flaschenhälsen an anderen Stellen. In der Praxis ist die Grafikchip-Architektur von Gaming-Ampere damit eher auf hohe nominelle Rohleistungen und und eine gewisse Ineffizienz ausgelegt, wird der Shader-Cluster-normierte Performance-Gewinn zwischen GeForce RTX 3080 und GeForce RTX 2080 TI (beiderseits 68 Shader-Cluster) logischerweise viel niedrigere Performancegewinne aufzeigen.

Turing Ampere
Recheneinheiten im Shader-Cluster 64x FP32 + 64x INT32 128x FP32 + 64x INT32
Threads pro Shader-Cluster 128 per Takt 128 per Takt
pro SM & Takt ausführbare Operationen 64x FP32 + 64x INT32 128x FP32  oder  64x FP32 + 64x INT32

Vorteile bietet dieses Architektur-Änderung in Fällen, wo besonders viel reine Rechenleistung abgefragt wird – beispielsweise bei RayTracing, aber auch generell zu erwarten bei NextGen-Spielen. Deren Bedarf an Rechenleistung dürfte im Vergleich zum Bedarf an üblichen "fixen" Funktionseinheiten (Raster-Engines, Textureneinheiten, ROPs) sicherlich zunehmen, da schließlich die Entwicklung der Videospiel-Grafik in den letzten Jahren konstant diesem Trend gefolgt ist. Die Architektur von Gaming-Ampere darf sich somit durchaus als "zukunftsgewandt" bezeichnen – auch wenn es natürlich leicht ironisch ist, dass nun, nachdem AMD mit seiner RDNA-Architektur verstärkt in Richtung "Recheneffizienz" geht, stattdessen nVidia dem früheren AMD-Pfad einer überbordenden Rohleistung folgt.

Die GeForce RTX 3080 basiert dann auf dem "GA102" Grafikchip der Ampere-Generation – wobei nicht der Vollausbau des Chips benutzt wird, sondern eine erhebliche Abspeckung dessen. Somit sind nur 68 der maximal möglichen 84 Shader-Cluster aktiv, das Speicherinterface wurde zudem auf 320 Bit (von maximal möglichen 384 Bit) limitiert. Einen Nahezu-Vollausbau des GA102-Chips wird nVidia am 24. September 2020 in Form der "GeForce RTX 3090" vorstellen, bei dieser gibt es dann 82 Shader-Cluster an einem 384 Bit Interface. Mit den 68 Shader-Einheiten der GeForce RTX 3080 wird im übrigen exakt das Niveau der GeForce RTX 2080 Ti erzielt – welche die neuere Ampere-Grafikkarte wegen ihrer besseren Architektur natürlich überrunden soll. Allerdings bringt die GeForce RTX 3080 dafür auch einen beachtbar höheren Stromverbrauch (260W → 320W) mit sich, was insbesondere für eine Grafikkarte in Ersatz von GeForce RTX 2080 & 2080 Super als etwas zu viel erscheint.

GeForce RTX 2080 GeForce RTX 2080 Super GeForce RTX 2080 Ti GeForce RTX 3080
Chipbasis nVidia TU104-400 nVidia TU104-450 nVidia TU102-300 nVidia GA102-200
Fertigung 13,6 Mrd. Transistoren auf 545mm² Chipfläche in der 12nm-Fertigung von TSMC 18,6 Mrd. Transistoren auf 754mm² in der 12nm-Fertigung von TSMC 28,3 Mrd. Transistoren auf 628mm² in der 8nm-Fertigung von Samsung
Architektur für alle 2080er Modelle: nVidia Turing, DirectX 12 Feature-Level 12_2 nVidia Ampere, DirectX 12 Feature-Level 12_2
Features für alle gelisteten Modelle: DirectX 12, OpenGL, Vulkan, Asynchonous Compute, RayTracing, DSR, DLSS, PhysX, G-Sync, FreeSync
Technik 6 Raster-Engines, 46 Shader-Cluster, 2944 FP32-Einheiten, 184 TMUs, 46 RT-Cores, 368 Tensor-Cores, 64 ROPs, 4 MB Level2-Cache, 256 Bit GDDR6-Interface (Salvage) 6 Raster-Engines, 48 Shader-Cluster, 3072 FP32-Einheiten, 192 TMUs, 48 RT-Cores, 384 Tensor-Cores, 64 ROPs, 4 MB Level2-Cache, 256 Bit GDDR6-Interface (Vollausbau) 6 Raster-Engines, 68 Shader-Cluster, 4352 FP32-Einheiten, 272 TMUs, 68 RT-Cores, 544 Tensor-Cores, 88 ROPs, 5.5 MB Level2-Cache, 352 Bit GDDR6-Interface (Salvage) 6 Raster-Engines, 68 Shader-Cluster, 8704 FP32-Einheiten, 272 TMUs, 68 RT-Cores, 272 Tensor-Cores, 96 ROPs, 5 MB Level2-Cache, 320 Bit GDDR6X-Interface (Salvage)
Taktraten Ref: 1515/1710 MHz & 14 Gbps
FE: 1515/1800 MHz & 14 Gbps
1650/1815 MHz & 15,5 Gbps Ref: 1350/1545 MHz & 14 Gbps
FE: 1350/1635 MHz & 14 Gbps
1450/1710 MHz & 19 Gbps
Rohleistungen Ref: 10,1 TFlops & 448 GB/sec
FE: 10,6 TFlops & 448 GB/sec
11,2 TFlops & 496 GB/sec Ref: 13,4 TFlops & 616 GB/sec
FE: 14,2 TFlops & 616 GB/sec
29,8 TFlops & 760 GB/sec
Speicherausbau 8 GB GDDR6 8 GB GDDR6 11 GB GDDR6 10 GB GDDR6X
Anbindung PCI Express 3.0 PCI Express 3.0 PCI Express 3.0 PCI Express 4.0
Layout Dual/TripleSlot Dual/TripleSlot Dual/TripleSlot Dual/TripleSlot
FE/Herst./OC / / / / / / / /
Kartenlänge Herst: 25,5-32,7cm
FE: 27,0cm
Herst: 26,5-32,8cm
FE: 27,0cm
Herst: 26,5-33,0cm
FE: 27,0cm
Herst: 27,4-32,3cm
FE: 28,5cm
Stromstecker 1x 6pol. + 1x 8pol. 1x 6pol. + 1x 8pol. 2x 8pol. 1x 12pol.
off. Verbrauch Ref: 215W — FE: 225W 250W Ref: 250W — FE: 260W 320W
realer Verbr. FE: 230W FE: 246W FE: 273W FE: 325W
Ausgänge für alle 2080er Modelle: HDMI 2.0b, 3x DisplayPort 1.4, VirtualLink per USB Type C HDMI 2.1, 3x DisplayPort 1.4
4K Perf.Index Ref: 186%FE: 192% 205% Ref: 239%FE: 247% 324%
Listenpreis Ref: $699 — FE: $799 $699 Ref: $999 — FE: $1199 $699
Straßenpreis 600-750€ (Auslauf) 600-750€ (Auslauf) 1050-1300€ (Auslauf) Herst: 790-900€FE: 699€
Release 19. September 2018 23. Juli 2019 19. September 2018 17. September 2020

Positiverweise verzichtet nVidia bei der Ampere-Generation auf das mit der Turing-Generation eingeführte Schema von unterschiedlichen Taktraten, TDPs und Preisen für Hersteller-Karten und nVidias eigene "Founders Edition". In der Praxis hat sich dieses Schema nicht bewährt, da die Grafikkarten-Hersteller sowieso meistens daran interessiert waren, die Performance der Founders Edition zu erreichen, dafür dann allerdings niedrigere Preislagen ansetzen konnten – schlecht für nVidias eigene Grafikkarten-Angebote. Bei der Ampere-Generation stehen die Herstellerdesigns nun in direktem Wettbewerb mit nVidias Founders Edition, bei gleichen technischen Daten und gleichem Preispunkt. Die ersten Tests zu Herstellerkarten ergeben dann keinerlei größere Performance-Differenzen gegenüber nVidias Eigendesign bei der GeForce RTX 3080.