Mit dem Launch der GeForce RTX 2080 auf Basis des TU104-Chips sowie der GeForce RTX 2080 Ti auf Basis des TU102-Chip hat nVidia am 19. September 2018 endlich seine lange erwartete nächste Grafikkarten-Generation gestartet. Die Turing-Generation bringt erstmals für PC-Grafikkarten RayTracing-Fähigkeiten in Hardware ins Spiel, läutet so gesehen eine neue Ära ein – durch nVidia auch kenntlich gemacht mit dem neuen Namenssuffix "RTX" (anstatt vorher "GTX"). Da RayTracing allerdings eher ein (sehr) langfristiges Projekt ist, kann jenes für die Bewertung der aktuellen Grafikkarten kaum eine Rolle spielen. Demzufolge kann man sich in der Bewertung von GeForce RTX 2080 und 2080 Ti derzeit noch ganz auf die üblichen Punkte aktuelle Spiele-Performance, Lautstärke, Stromverbrauch und Übertaktungseignung konzentrieren. In diese Richtung hin wurden für diese Launch-Analyse die inzwischen fünf Dutzend an Launchreviews zu den beiden neuen Turing-Grafikkarten durchgearbeitet und nachfolgend deren relevante Aussagen verdichtet.
nVidias Turing-Generation mag ursprünglich für die 10nm-Fertigung von Samsung gedacht gewesen sein, kommt nun aber doch in der (nur geringfügig veränderten) 12nm-Fertigung von TSMC daher. Damit sind keine große Steigerungen der Einheiten-Anzahl möglich, hinzukommend die diversen Änderungen an den Shader-Clustern samt der neuen RayTracing-Fähigkeiten führt dies dennoch zu enorm großen Grafikchips innerhalb der Turing-Generation. Der TU104-Chip der GeForce RTX 2080 ist mit 545mm² beachtbar größer als der GP102-Chip der GeForce GTX 1080 Ti mit dessen "nur" 471mm² Chipfläche – und damit für einen zweitgrößen Gamer-Chip eigentlich viel zu groß, bislang ist nVidia in diesem Marktsegment bei Chipflächen von 300-400mm² unterwegs. Der TU102-Chip der GeForce RTX 2080 Ti ist dagegen mit 754mm² klar der größte jemals primär für Gaming-Bedürfnisse aufgelegte Grafikchip – bislang ist nVidia in diesem Marktsegment ebenfalls deutlich kleiner mit Chipflächen von bestenfalls ~600mm² angetreten.
nVidia Turing TU106 | nVidia Turing TU104 | nVidia Turing TU102 | |
---|---|---|---|
Chip | 10,6 Mrd. Transistoren auf 445mm² Chipfläche in der 12nm-Fertigung von TSMC | 13,6 Mrd. Transistoren auf 545mm² Chipfläche in der 12nm-Fertigung von TSMC | 18,6 Mrd. Transistoren auf 754mm² Chipfläche in der 12nm-Fertigung von TSMC |
Hardware | 3 Raster-Engines, 36 Shader-Cluster, 2304 Shader-Einheiten, 144 TMUs, 36 RT-Cores, 288 Tensor-Cores, 64 ROPs, 4 MB Level2-Cache, 256 Bit GDDR6-Speicherinterface | 6 Raster-Engines, 48 Shader-Cluster, 3072 Shader-Einheiten, 192 TMUs, 48 RT-Cores, 384 Tensor-Cores, 64 ROPs, 4 MB Level2-Cache, 256 Bit GDDR6-Speicherinterface | 6 Raster-Engines, 72 Shader-Cluster, 4608 Shader-Einheiten, 288 TMUs, 72 RT-Cores, 576 Tensor-Cores, 96 ROPs, 6 MB Level2-Cache, 384 Bit GDDR6-Speicherinterface |
NVLink & SLI | - | ein NVLink 2.0 x8-Anschluß (50 GB/sec), Support für maximal 2fach SLI | zwei NVLink 2.0 x8-Anschlüsse (100 GB/sec), Support für maximal 2fach SLI |
verbaut bei | GeForce RTX 2070 (Vollausbau) | GeForce RTX 2080 (Salvage) & Quadro RTX 5000 (Vollausbau) | GeForce RTX 2080 Ti (Salvage) & Quadro RTX 6000/8000 (Vollausbau) |
Vorgänger-Chip | - | Pascal GP104, 7,2 Mrd. Transistoren auf 314mm² Chipfläche in der 16nm-Fertigung von TSMC, 4 Raster-Engines, 20 Shader-Cluster, 2560 Shader-Einheiten, 160 TMUs, 64 ROPs, 2 MB Level2-Cache, 256 Bit GDDR5X-Speicherinterface | Pascal GP102, 12 Mrd. Transistoren auf 471mm² Chipfläche in der 16nm-Fertigung von TSMC, 6 Raster-Engines, 30 Shader-Cluster, 3840 Shader-Einheiten, 256 TMUs, 96 ROPs, 3 MB Level2-Cache, 384 Bit GDDR5X-Speicherinterface |
Die deutlich größere Chipfläche resultiert primär aus drei Punkten: Erstens einmal eine Steigerung der nominellen Einheiten-Anzahl um jeweils +20%, zweitens die Einschließung von RayTracing und drittens die (deutliche) Umgestaltung der Shader-Cluster von Turing. Die RayTracing-Funktionalität wurde direkt in selbige integriert, aber es gab daneben auch andere, sehr bedeutsame Änderungen: So sinkt die Anzahl der Shader-Einheiten pro Shader-Cluster von 128 auf 64, womit sich die Kontrolllogik pro Shader-Einheit grob verdoppelt (was der besseren Auslastung der Shader-Einheiten dient). Gleichfalls wurden neben den 64 üblichen FP32-Einheiten pro Shader-Cluster auch noch 64 INT32-Einheiten verbaut, welche zudem nunmehr auch gleichzeitig genutzt werden können. Faktisch gesehen steigt die Anzahl der Ausführungseinheiten damit also doch stark an – auch wenn Integer-Code derzeit noch nicht in diesem Ausmaß von Spielen genutzt wird wie Fließkomma-Code. Zudem läuft die FP16-Funktionalität nunmehr mit doppelter Performance, bei Spielen mit starker Nutzung von FP16-Code sind sind somit gute Performancegewinne zu erwarten.
So gesehen ist Turing ein großer Architektur-Sprung – ähnlich dem von Kepler zu Maxwell, wo es bekannterweise ebenfalls neue Shader-Cluster und auch kein wirklich neues Fertigungsverfahren gab. Diese großen internen Änderungen zugunsten des normalen Rendering-Ablaufs bedeuten aber auch, das Turing durchaus noch eine gewisse Reifezeit hinlegen könnte. Zwar sollten aktuelle Spiele bereits über die Turing-Treiber halbwegs gut optimiert werden, aber neu herauskommende Spiele sollten sich dann besser auf die neuen Shader-Cluster und deren neue Hardware-Fähigkeiten einlassen – womit die Turing-Grafikkarten unter zukünftigen Spielen stärker zulegen könnten, als es dato der Fall ist. Selbigen Effekt gab es schließlich auch schon bei der Maxwell-Generation zu beobachten, welche sich über die Zeit immer besser von den vorherigen Grafikkarten absetzen konnte. Richtig beachtbare Performancesprünge sind damit natürlich nicht zu erwarten, dieserart Verbesserungen über die Zeit laufen üblicherweise im Rahmen von einigen Prozentpunkten ab.
Kepler | Maxwell 2 | Pascal | Turing | |
---|---|---|---|---|
gilt für Grafikchips | GK110, GK104, GK106, GK107, GK208 | GM200, GM204, GM206 | GP102, GP104, GP106, GP107, GP108 (nicht für GP100) | TU102, TU104, TU106 |
DirectX 12 Feature-Level | 11_0 | 12_1 (Tier 2) | 12_1 (Tier 2) | 12_1 (Tier 3) |
RayTracing | ✗ | ✗ | ✗ | ✓ |
Durchsatz pro Raster-Engine | 8 Pixel/Takt 1 Triangle/Takt |
16 Pixel/Takt 1 Triangle/Takt |
16 Pixel/Takt 1 Triangle/Takt |
(vermutlich) 16 Pixel/Takt 1 Triangle/Takt |
Aufbau der Shader-Cluster | 192 Shader-Einheiten (FP32), 16 Textureneinheiten, 32 Load/Store-Einheiten, 32 SFUs, 8 FP64-Einheiten, 1x Kontrolllogik, 256 kByte Register File, 64 kByte Level1-Cache, 48 kByte Daten-Cache (GK110: 64 anstatt 8 FP64-Einheiten) |
128 Shader-Einheiten (FP32), 8 Textureneinheiten, 32 Load/Store-Einheiten, 32 SFUs, 4 FP64-Einheiten, 4x Kontrolllogik, 256 kByte Register File, 48 kByte Level1-Cache, 96 kByte Daten-Cache | 128 Shader-Einheiten (FP32), 8 Textureneinheiten, 32 Load/Store-Einheiten, 32 SFUs, 4 FP64-Einheiten, 4x Kontrolllogik, 256 kByte Register File, 48 kByte Level1-Cache, 96 kByte Daten-Cache | 64 Shader-Einheiten (FP32), 4 Textureneinheiten, 16 Load/Store-Einheiten, 16 SFUs, 2 FP64-Einheiten, 64 Integer-Einheiten (INT32), 1 RT-Core, 8 Tensor-Cores, 4x Kontrolllogik, 256 kByte Register File, 96 kByte Level1- und Daten-Cache |
TMU/SE-Verhältnis | 1:12 | 1:16 | 1:16 | 1:16 |
FP64/FP32-Perf. | 1:24 (GK110: 1:3) | 1:32 | 1:32 | 1:32 |
FP16/FP32-Perf. | - | - | 1:1 | 2:1 |
wichtige Fortschritte | - | doppelter Pixel-Durchsatz der Raster-Engines, kleinere Shader-Cluster, deutlich mehr Kontrolllogik pro Shader-Einheit, größere Caches pro Shader-Einheit | FP16-Fähigkeit (ohne Performance-Verbesserung) | kleinere Shader-Cluster, extra INT32-Einheiten, FP16-Fähigkeit mit doppelter Performance, grob verdoppelte Kontrolllogik pro Shader-Einheit, größere Caches pro Shader-Einheit, RayTracing in Hardware |
Weitere Performancesprünge sind dann zu erwarten, wenn die Spieleentwickler diverse neue Rendering-Features von Turing nutzen: Wie die doppelte FP16-Performance, was ja derzeit seitens der Spieleentwickler schon angegangen wird und auch bei AMDs Vega-Architektur existiert. Daneben gehören dann auch "Mesh Shading" (neue Geometrie-Shader zur Entlastung der CPU, nicht unähnlich den "Primitive Shaders" von AMDs Vega), "Variable Rate Shading" (VRS) (Reduzierung der Shader-Qualität an unwichtigen Stellen, interessant besonders für die Außenteile des Bildes bei VR-Rendering), "Texture-Space Shading" (Wiederverwendung von Shading-Operationen) und "Multi-View Rendering" (MVR) (Rendering mehrerer Bildansichten zugleich) als weitere neue Rendering-Features von Turing, welche allesamt ebenso seitens der Spiele-Entwickler explizit eingebaut werden müssen. Die teilweise mit diesen Features mögliche Reduzierung der Renderqualität liegt dabei komplett in den Händen des Spieleentwicklers – jener entscheidet also weiterhin, wo die "unwichtige Stellen" sind und wie sein Spiel optisch aussehen soll. Im Gegensatz zu FP16-Code dürfte die reale Nutzung der anderen genannten Rendering-Features von Turing seine Zeit brauchen – was natürlich auch wieder zugunsten einer langfristig (relativ gesehen) steigenden Performance geht.
Aus den beiden größeren Turing-Chips TU104 und TU102 hat nVidia dann die Gamer-Grafikkarten GeForce RTX 2080 und GeForce RTX 2080 Ti geformt. Beide treten nicht im Vollausbau der zugrundeliegenden Grafikchips an – was bei der GeForce RTX 2080 Ti relativ normal ist, hier dürfte eine nachfolgende Titan-Karte den Vollausbau stellen. Bei der GeForce RTX 2080 ist dies etwas ungewöhnlich, basiert aber letztlich auf dem Umstand, das die nachfolgende GeForce RTX 2070 auf einem eigenen Grafikchip basiert und damit nicht die Rolle einer Salvage-Lösung übernehmen kann – dies muß nun die GeForce RTX 2080 selbst tun. Die Hardware-Abspeckungen sind allerdings jeweils eher geringfügig: Der GeForce RTX 2080 fehlen zwei Shader-Cluster (46 anstatt 48, -4%), der GeForce RTX 2080 Ti dann immerhin vier Shader-Cluster (68 anstatt 72, -6%) samt einem Speichercontroller (352 anstatt 384 Bit, -8%). Wegen dieser Abspeckungen ist eine später erscheinende TU102-basierte Titan-Karte wie gesagt ziemlich wahrscheinlich, eine weitere TU104-basierte Karte mit dem Vollausbau dieses Grafikchips (wegen der geringen Hardware-Differenz) dagegen eher nicht.
GeForce GTX 1080 | GeForce GTX 1080 Ti | GeForce RTX 2080 | GeForce RTX 2080 Ti | |
---|---|---|---|---|
Chipbasis | nVidia GP104 | nVidia GP102 | nVidia TU104 | nVidia TU102 |
Fertigung | 7,2 Mrd. Transistoren auf 314mm² Chipfläche in der 16nm-Fertigung von TSMC | 12 Mrd. Transistoren auf 471mm² Chipfläche in der 16nm-Fertigung von TSMC | 13,6 Mrd. Transistoren auf 545mm² Chipfläche in der 12nm-Fertigung von TSMC | 18,6 Mrd. Transistoren auf 754mm² Chipfläche in der 12nm-Fertigung von TSMC |
Architektur | Pascal, DirectX 12 Feature-Level 12_1 (Tier 2) | Turing, DirectX 12 Feature-Level 12_1 (Tier 3) | ||
Features | DirectX 12, OpenGL, Vulkan, Asynchonous Compute, DSR, SLI, PhysX, G-Sync | DirectX 12, OpenGL, Vulkan, Asynchonous Compute, RayTracing, DSR, DLSS, SLI, PhysX, NVLink, G-Sync | ||
Technik | 4 Raster-Engines, 20 Shader-Cluster, 2560 Shader-Einheiten, 160 TMUs, 64 ROPs, 256 Bit GDDR5X-Interface, 2 MB Level2-Cache (Vollausbau) | 6 Raster-Engines, 28 Shader-Cluster, 3584 Shader-Einheiten, 224 TMUs, 88 ROPs, 352 Bit GDDR5X-Interface, 2.75 MB Level2-Cache (Salvage) | 6 Raster-Engines, 46 Shader-Cluster, 2944 Shader-Einheiten, 184 TMUs, 46 RT-Cores, 368 Tensor-Cores, 64 ROPs, 4 MB Level2-Cache, 256 Bit GDDR6-Interface (Salvage) | 6 Raster-Engines, 68 Shader-Cluster, 4352 Shader-Einheiten, 272 TMUs, 68 RT-Cores, 544 Tensor-Cores, 88 ROPs, 5.5 MB Level2-Cache, 352 Bit GDDR6-Interface (Salvage) |
Taktraten | 1607/1733/2500 MHz | 1480/1582/2750 MHz | Std.: 1515/1710/3500 MHz FE: 1515/1800/3500 MHz |
Std.: 1350/1545/3500 MHz FE: 1350/1635/3500 MHz |
Speicherausbau | 8 GB GDDR5X | 11 GB GDDR5X | 8 GB GDDR6 | 11 GB GDDR6 |
Layout | DualSlot | DualSlot | DualSlot | DualSlot |
Kartenlänge | 26,7cm | 26,7cm | 26,7cm | 26,7cm |
Ref./Herst./OC | ✓ / ✓ / ✓ | ✓ / ✓ / ✓ | ✓ / ✓ / ✓ | ✓ / ✓ / ✓ |
Stromstecker | 1x 8pol. | 1x 6pol. + 1x 8pol. | 1x 6pol. + 1x 8pol. | 2x 8pol. |
off. Verbrauch | 180W | 250W | Std.: 215W FE: 225W | Std.: 250W FE: 260W |
Idle-Verbrauch | 6W | 11W | FE: 16W | FE: 21W |
Spiele-Verbr. | 175W | 238W | Std.: ~218W FE: 228W | Std.: ~260W FE: 271W |
Ausgänge | DualLink DVI-D, HDMI 2.0b, 3x DisplayPort 1.4 | HDMI 2.0b, 3x DisplayPort 1.4 | HDMI 2.0b, 3x DisplayPort 1.4, VirtualLink per USB Type C | HDMI 2.0b, 3x DisplayPort 1.4, VirtualLink per USB Type C |
4K Perf.Index | 132% | 175% | Std.: ~180% FE: 186% | Std.: ~228% FE: 236% |
Listenpreis | 499$ | 699$ | Std.: 699$ FE: 799$/849€ | Std.: 999$ FE: 1199$/1259€ |
Straßenpreis | 480-530€ | 680-750€ | 840-900€ | 1230-1300€ (verfügbar 27.9.) |
Release | 17. Mai 2016 | 10. März 2017 | 19. September 2018 | 19. September 2018 |