Launch-Analyse nVidia GeForce RTX 2080 & 2080 Ti

Mittwoch, 26. September 2018

/ von Leonidas

Mit dem Launch der GeForce RTX 2080 auf Basis des TU104-Chips sowie der GeForce RTX 2080 Ti auf Basis des TU102-Chip hat nVidia am 19. September 2018 endlich seine lange erwartete nächste Grafikkarten-Generation gestartet. Die Turing-Generation bringt erstmals für PC-Grafikkarten RayTracing-Fähigkeiten in Hardware ins Spiel, läutet so gesehen eine neue Ära ein – durch nVidia auch kenntlich gemacht mit dem neuen Namenssuffix "RTX" (anstatt vorher "GTX"). Da RayTracing allerdings eher ein (sehr) langfristiges Projekt ist, kann jenes für die Bewertung der aktuellen Grafikkarten kaum eine Rolle spielen. Demzufolge kann man sich in der Bewertung von GeForce RTX 2080 und 2080 Ti derzeit noch ganz auf die üblichen Punkte aktuelle Spiele-Performance, Lautstärke, Stromverbrauch und Übertaktungseignung konzentrieren. In diese Richtung hin wurden für diese Launch-Analyse die inzwischen fünf Dutzend an Launchreviews zu den beiden neuen Turing-Grafikkarten durchgearbeitet und nachfolgend deren relevante Aussagen verdichtet.

nVidia GeForce RTX 2080 "Founders Edition"

nVidia GeForce RTX 2080 Ti "Founders Edition"

nVidias Turing-Generation mag ursprünglich für die 10nm-Fertigung von Samsung gedacht gewesen sein, kommt nun aber doch in der (nur geringfügig veränderten) 12nm-Fertigung von TSMC daher. Damit sind keine große Steigerungen der Einheiten-Anzahl möglich, hinzukommend die diversen Änderungen an den Shader-Clustern samt der neuen RayTracing-Fähigkeiten führt dies dennoch zu enorm großen Grafikchips innerhalb der Turing-Generation. Der TU104-Chip der GeForce RTX 2080 ist mit 545mm² beachtbar größer als der GP102-Chip der GeForce GTX 1080 Ti mit dessen "nur" 471mm² Chipfläche – und damit für einen zweitgrößen Gamer-Chip eigentlich viel zu groß, bislang ist nVidia in diesem Marktsegment bei Chipflächen von 300-400mm² unterwegs. Der TU102-Chip der GeForce RTX 2080 Ti ist dagegen mit 754mm² klar der größte jemals primär für Gaming-Bedürfnisse aufgelegte Grafikchip – bislang ist nVidia in diesem Marktsegment ebenfalls deutlich kleiner mit Chipflächen von bestenfalls ~600mm² angetreten.

	nVidia Turing TU106	nVidia Turing TU104	nVidia Turing TU102
Chip	10,6 Mrd. Transistoren auf 445mm² Chipfläche in der 12nm-Fertigung von TSMC	13,6 Mrd. Transistoren auf 545mm² Chipfläche in der 12nm-Fertigung von TSMC	18,6 Mrd. Transistoren auf 754mm² Chipfläche in der 12nm-Fertigung von TSMC
Hardware	3 Raster-Engines, 36 Shader-Cluster, 2304 Shader-Einheiten, 144 TMUs, 36 RT-Cores, 288 Tensor-Cores, 64 ROPs, 4 MB Level2-Cache, 256 Bit GDDR6-Speicherinterface	6 Raster-Engines, 48 Shader-Cluster, 3072 Shader-Einheiten, 192 TMUs, 48 RT-Cores, 384 Tensor-Cores, 64 ROPs, 4 MB Level2-Cache, 256 Bit GDDR6-Speicherinterface	6 Raster-Engines, 72 Shader-Cluster, 4608 Shader-Einheiten, 288 TMUs, 72 RT-Cores, 576 Tensor-Cores, 96 ROPs, 6 MB Level2-Cache, 384 Bit GDDR6-Speicherinterface
NVLink & SLI	-	ein NVLink 2.0 x8-Anschluß (50 GB/sec), Support für maximal 2fach SLI	zwei NVLink 2.0 x8-Anschlüsse (100 GB/sec), Support für maximal 2fach SLI
verbaut bei	GeForce RTX 2070 (Vollausbau)	GeForce RTX 2080 (Salvage) & Quadro RTX 5000 (Vollausbau)	GeForce RTX 2080 Ti (Salvage) & Quadro RTX 6000/8000 (Vollausbau)
Vorgänger-Chip	-	Pascal GP104, 7,2 Mrd. Transistoren auf 314mm² Chipfläche in der 16nm-Fertigung von TSMC, 4 Raster-Engines, 20 Shader-Cluster, 2560 Shader-Einheiten, 160 TMUs, 64 ROPs, 2 MB Level2-Cache, 256 Bit GDDR5X-Speicherinterface	Pascal GP102, 12 Mrd. Transistoren auf 471mm² Chipfläche in der 16nm-Fertigung von TSMC, 6 Raster-Engines, 30 Shader-Cluster, 3840 Shader-Einheiten, 256 TMUs, 96 ROPs, 3 MB Level2-Cache, 384 Bit GDDR5X-Speicherinterface

Die deutlich größere Chipfläche resultiert primär aus drei Punkten: Erstens einmal eine Steigerung der nominellen Einheiten-Anzahl um jeweils +20%, zweitens die Einschließung von RayTracing und drittens die (deutliche) Umgestaltung der Shader-Cluster von Turing. Die RayTracing-Funktionalität wurde direkt in selbige integriert, aber es gab daneben auch andere, sehr bedeutsame Änderungen: So sinkt die Anzahl der Shader-Einheiten pro Shader-Cluster von 128 auf 64, womit sich die Kontrolllogik pro Shader-Einheit grob verdoppelt (was der besseren Auslastung der Shader-Einheiten dient). Gleichfalls wurden neben den 64 üblichen FP32-Einheiten pro Shader-Cluster auch noch 64 INT32-Einheiten verbaut, welche zudem nunmehr auch gleichzeitig genutzt werden können. Faktisch gesehen steigt die Anzahl der Ausführungseinheiten damit also doch stark an – auch wenn Integer-Code derzeit noch nicht in diesem Ausmaß von Spielen genutzt wird wie Fließkomma-Code. Zudem läuft die FP16-Funktionalität nunmehr mit doppelter Performance, bei Spielen mit starker Nutzung von FP16-Code sind sind somit gute Performancegewinne zu erwarten.

So gesehen ist Turing ein großer Architektur-Sprung – ähnlich dem von Kepler zu Maxwell, wo es bekannterweise ebenfalls neue Shader-Cluster und auch kein wirklich neues Fertigungsverfahren gab. Diese großen internen Änderungen zugunsten des normalen Rendering-Ablaufs bedeuten aber auch, das Turing durchaus noch eine gewisse Reifezeit hinlegen könnte. Zwar sollten aktuelle Spiele bereits über die Turing-Treiber halbwegs gut optimiert werden, aber neu herauskommende Spiele sollten sich dann besser auf die neuen Shader-Cluster und deren neue Hardware-Fähigkeiten einlassen – womit die Turing-Grafikkarten unter zukünftigen Spielen stärker zulegen könnten, als es dato der Fall ist. Selbigen Effekt gab es schließlich auch schon bei der Maxwell-Generation zu beobachten, welche sich über die Zeit immer besser von den vorherigen Grafikkarten absetzen konnte. Richtig beachtbare Performancesprünge sind damit natürlich nicht zu erwarten, dieserart Verbesserungen über die Zeit laufen üblicherweise im Rahmen von einigen Prozentpunkten ab.

	Kepler	Maxwell 2	Pascal	Turing
gilt für Grafikchips	GK110, GK104, GK106, GK107, GK208	GM200, GM204, GM206	GP102, GP104, GP106, GP107, GP108 (nicht für GP100)	TU102, TU104, TU106
DirectX 12 Feature-Level	11_0	12_1 (Tier 2)	12_1 (Tier 2)	12_1 (Tier 3)
RayTracing	✗	✗	✗	✓
Durchsatz pro Raster-Engine	8 Pixel/Takt 1 Triangle/Takt	16 Pixel/Takt 1 Triangle/Takt	16 Pixel/Takt 1 Triangle/Takt	(vermutlich) 16 Pixel/Takt 1 Triangle/Takt
Aufbau der Shader-Cluster	192 Shader-Einheiten (FP32), 16 Textureneinheiten, 32 Load/Store-Einheiten, 32 SFUs, 8 FP64-Einheiten, 1x Kontrolllogik, 256 kByte Register File, 64 kByte Level1-Cache, 48 kByte Daten-Cache (GK110: 64 anstatt 8 FP64-Einheiten)	128 Shader-Einheiten (FP32), 8 Textureneinheiten, 32 Load/Store-Einheiten, 32 SFUs, 4 FP64-Einheiten, 4x Kontrolllogik, 256 kByte Register File, 48 kByte Level1-Cache, 96 kByte Daten-Cache	128 Shader-Einheiten (FP32), 8 Textureneinheiten, 32 Load/Store-Einheiten, 32 SFUs, 4 FP64-Einheiten, 4x Kontrolllogik, 256 kByte Register File, 48 kByte Level1-Cache, 96 kByte Daten-Cache	64 Shader-Einheiten (FP32), 4 Textureneinheiten, 16 Load/Store-Einheiten, 16 SFUs, 2 FP64-Einheiten, 64 Integer-Einheiten (INT32), 1 RT-Core, 8 Tensor-Cores, 4x Kontrolllogik, 256 kByte Register File, 96 kByte Level1- und Daten-Cache
TMU/SE-Verhältnis	1:12	1:16	1:16	1:16
FP64/FP32-Perf.	1:24 (GK110: 1:3)	1:32	1:32	1:32
FP16/FP32-Perf.	-	-	1:1	2:1
wichtige Fortschritte	-	doppelter Pixel-Durchsatz der Raster-Engines, kleinere Shader-Cluster, deutlich mehr Kontrolllogik pro Shader-Einheit, größere Caches pro Shader-Einheit	FP16-Fähigkeit (ohne Performance-Verbesserung)	kleinere Shader-Cluster, extra INT32-Einheiten, FP16-Fähigkeit mit doppelter Performance, grob verdoppelte Kontrolllogik pro Shader-Einheit, größere Caches pro Shader-Einheit, RayTracing in Hardware

Weitere Performancesprünge sind dann zu erwarten, wenn die Spieleentwickler diverse neue Rendering-Features von Turing nutzen: Wie die doppelte FP16-Performance, was ja derzeit seitens der Spieleentwickler schon angegangen wird und auch bei AMDs Vega-Architektur existiert. Daneben gehören dann auch "Mesh Shading" (neue Geometrie-Shader zur Entlastung der CPU, nicht unähnlich den "Primitive Shaders" von AMDs Vega), "Variable Rate Shading" (VRS) (Reduzierung der Shader-Qualität an unwichtigen Stellen, interessant besonders für die Außenteile des Bildes bei VR-Rendering), "Texture-Space Shading" (Wiederverwendung von Shading-Operationen) und "Multi-View Rendering" (MVR) (Rendering mehrerer Bildansichten zugleich) als weitere neue Rendering-Features von Turing, welche allesamt ebenso seitens der Spiele-Entwickler explizit eingebaut werden müssen. Die teilweise mit diesen Features mögliche Reduzierung der Renderqualität liegt dabei komplett in den Händen des Spieleentwicklers – jener entscheidet also weiterhin, wo die "unwichtige Stellen" sind und wie sein Spiel optisch aussehen soll. Im Gegensatz zu FP16-Code dürfte die reale Nutzung der anderen genannten Rendering-Features von Turing seine Zeit brauchen – was natürlich auch wieder zugunsten einer langfristig (relativ gesehen) steigenden Performance geht.

Aus den beiden größeren Turing-Chips TU104 und TU102 hat nVidia dann die Gamer-Grafikkarten GeForce RTX 2080 und GeForce RTX 2080 Ti geformt. Beide treten nicht im Vollausbau der zugrundeliegenden Grafikchips an – was bei der GeForce RTX 2080 Ti relativ normal ist, hier dürfte eine nachfolgende Titan-Karte den Vollausbau stellen. Bei der GeForce RTX 2080 ist dies etwas ungewöhnlich, basiert aber letztlich auf dem Umstand, das die nachfolgende GeForce RTX 2070 auf einem eigenen Grafikchip basiert und damit nicht die Rolle einer Salvage-Lösung übernehmen kann – dies muß nun die GeForce RTX 2080 selbst tun. Die Hardware-Abspeckungen sind allerdings jeweils eher geringfügig: Der GeForce RTX 2080 fehlen zwei Shader-Cluster (46 anstatt 48, -4%), der GeForce RTX 2080 Ti dann immerhin vier Shader-Cluster (68 anstatt 72, -6%) samt einem Speichercontroller (352 anstatt 384 Bit, -8%). Wegen dieser Abspeckungen ist eine später erscheinende TU102-basierte Titan-Karte wie gesagt ziemlich wahrscheinlich, eine weitere TU104-basierte Karte mit dem Vollausbau dieses Grafikchips (wegen der geringen Hardware-Differenz) dagegen eher nicht.

	GeForce GTX 1080	GeForce GTX 1080 Ti	GeForce RTX 2080	GeForce RTX 2080 Ti
Chipbasis	nVidia GP104	nVidia GP102	nVidia TU104	nVidia TU102
Fertigung	7,2 Mrd. Transistoren auf 314mm² Chipfläche in der 16nm-Fertigung von TSMC	12 Mrd. Transistoren auf 471mm² Chipfläche in der 16nm-Fertigung von TSMC	13,6 Mrd. Transistoren auf 545mm² Chipfläche in der 12nm-Fertigung von TSMC	18,6 Mrd. Transistoren auf 754mm² Chipfläche in der 12nm-Fertigung von TSMC
Architektur	Pascal, DirectX 12 Feature-Level 12_1 (Tier 2)		Turing, DirectX 12 Feature-Level 12_1 (Tier 3)
Features	DirectX 12, OpenGL, Vulkan, Asynchonous Compute, DSR, SLI, PhysX, G-Sync		DirectX 12, OpenGL, Vulkan, Asynchonous Compute, RayTracing, DSR, DLSS, SLI, PhysX, NVLink, G-Sync
Technik	4 Raster-Engines, 20 Shader-Cluster, 2560 Shader-Einheiten, 160 TMUs, 64 ROPs, 256 Bit GDDR5X-Interface, 2 MB Level2-Cache (Vollausbau)	6 Raster-Engines, 28 Shader-Cluster, 3584 Shader-Einheiten, 224 TMUs, 88 ROPs, 352 Bit GDDR5X-Interface, 2.75 MB Level2-Cache (Salvage)	6 Raster-Engines, 46 Shader-Cluster, 2944 Shader-Einheiten, 184 TMUs, 46 RT-Cores, 368 Tensor-Cores, 64 ROPs, 4 MB Level2-Cache, 256 Bit GDDR6-Interface (Salvage)	6 Raster-Engines, 68 Shader-Cluster, 4352 Shader-Einheiten, 272 TMUs, 68 RT-Cores, 544 Tensor-Cores, 88 ROPs, 5.5 MB Level2-Cache, 352 Bit GDDR6-Interface (Salvage)
Taktraten	1607/1733/2500 MHz	1480/1582/2750 MHz	Std.: 1515/1710/3500 MHz FE: 1515/1800/3500 MHz	Std.: 1350/1545/3500 MHz FE: 1350/1635/3500 MHz
Speicherausbau	8 GB GDDR5X	11 GB GDDR5X	8 GB GDDR6	11 GB GDDR6
Layout	DualSlot	DualSlot	DualSlot	DualSlot
Kartenlänge	26,7cm	26,7cm	26,7cm	26,7cm
Ref./Herst./OC	✓ / ✓ / ✓	✓ / ✓ / ✓	✓ / ✓ / ✓	✓ / ✓ / ✓
Stromstecker	1x 8pol.	1x 6pol. + 1x 8pol.	1x 6pol. + 1x 8pol.	2x 8pol.
off. Verbrauch	180W	250W	Std.: 215W FE: 225W	Std.: 250W FE: 260W
Idle-Verbrauch	6W	11W	FE: 16W	FE: 21W
Spiele-Verbr.	175W	238W	Std.: ~218W FE: 228W	Std.: ~260W FE: 271W
Ausgänge	DualLink DVI-D, HDMI 2.0b, 3x DisplayPort 1.4	HDMI 2.0b, 3x DisplayPort 1.4	HDMI 2.0b, 3x DisplayPort 1.4, VirtualLink per USB Type C	HDMI 2.0b, 3x DisplayPort 1.4, VirtualLink per USB Type C
4K Perf.Index	132%	175%	Std.: ~180% FE: 186%	Std.: ~228% FE: 236%
Listenpreis	499$	699$	Std.: 699$ FE: 799$/849€	Std.: 999$ FE: 1199$/1259€
Straßenpreis	480-530€	680-750€	840-900€	1230-1300€ (verfügbar 27.9.)
Release	17. Mai 2016	10. März 2017	19. September 2018	19. September 2018