4

Die (vermutlichen) Hardware-Spezifikationen der kompletten "Ampere"-Chipserie

Nachdem sich die früheren Vorhersagen zur Ampere-Hardware durch Twitterer Kopite7kimi nunmehr nach dem GA100-Chip auch beim GA102- sowie beim GA104-Chip bestätigt haben, kann man davon ausgehen, das jene bereits seit Mai 2019 vorliegende Vorhersage auf durchgehend echten Daten beruht. Schließlich stimmen auch die selten beachteten Details wie die 7 Graphics Processing Cluster (GPC) beim GA102-Chips, welche man wegen der ungerade Zahl kaum "freiwillig" vorhersagen würde. Zusammen mit der kürzlichen Klarstellung, wie sich die Shader-Cluster von Gaming-Ampere aufbauen (zuzüglich einer Detail-Infos zu den Ampere-ROPs sowie zu den Tensor-Cores von Ampere), kann man davon ausgehend bereits die komplette "Ampere"-Chipserie in ihren grundsätzlichen Hardware-Spezifikationen erkennen. Nachfolgende Aufstellung ist bezüglich der Ampere-Chips GA107 & GA106 natürlich noch nicht gefeit vor letztendlichen Fehlern, bezüglich GA104 & GA102 kann man sich hingegen nahezu sicher sein, fehlt zumeist nur noch eine hochoffizielle Bestätigung des allerdings bereits offensichtlichen:

GA107 GA106 GA104 GA102 GA100
Raster-Engines (GPC) 2 3 6 7 8
Shader-Cluster (SM) 20 30 48 84 128
FP32-Einh. (CUDA-Cores) 2560 3840 6144 10752 8192
INT32-Einheiten 1280 1920 3072 5376 8192
Textureneinh. (TMUs) 80 120 192 336 512
Tensor-Cores 80 120 192 336 512
RT-Cores möglw. 20 (?) möglw. 30 (?) 48 84
ROPs 32 48 96 112 whrschl. 128
Level2-Cache ? ? 4 MB 6 MB 48 MB
Speicherinterface 128 Bit GDDR6 192 Bit GDDR6 256 Bit GDDR6 384 Bit GDDR6X 6144 Bit HBM2
Grafikkarten GTX/RTX 3040 Serie (?) GTX/RTX 3050 Serie (?) RTX 3060, 3070 & 3070 Ti RTX 3080 & 3090 rein HPC
Release Q1/2021 Q1/2021 Oktober 2020 17. September 2020 14. Mai 2020
Basis: Ampere Hardware-Vorhersage von 'Kopite7kimi' & nVidia-Aussagen zur Ampere-Architektur

Wie zu sehen, geht nVidia weg von den früher üblichen Verdopplungen der Shader-Cluster bei den nächstgrößeren Grafikchips – dies macht wahrscheinlich die Performance-Abstände zu groß oder zwingt im Zweifelsfall zu extrem abgespeckten Salvage-Lösungen. Bei der Ampere-Generation gibt es hingegen zwischen +50% bis +75% mehr Shader-Cluster zum jeweils nächstgrößeren Grafikchip. Den größten Sprung gibt es mit +75% zwischen GA104 und GA102 ausgerechnet an der Leistungsspitze – resultierend aus dem Punkt, dass dazwischen angeblich noch ein GA103-Chip (mit 60 Shader-Clustern) geplant war, welchen nVidia jedoch letztlich doch nicht realisiert hat. Vakante Größen zu diesen Hardware-Angaben gibt es dann nur noch zu den kleineren Grafikchips GA106 & GA107: Zu bestätigen wäre noch, dass auch diese die verdoppelten FP32-Einheiten der größere Ampere-Chips tragen – genauso wie, ob es dort auch wirklich RayTracing-Fähigkeiten und damit RT-Cores gibt. Eine grundsätzliche RayTracing-Eignung aller Ampere-Grafikkarten wird gemäß eines früheren Gerüchte zwar angenommen und macht sich gut in einem Zeitalter, wo RayTracing auch seitens der NextGen-Konsolen sowie im kommenden Navi-2X-Portfolio von Mainstream- bis Enthusiast-GPUs geboten werden wird. Gänzlich sicher ist dieser Punkt aber noch nicht, eine extra "GeForce GTX 30" oder auch "GeForce GTX 25" Serie ohne RayTracing-Fähigkeit wäre immer noch denkbar.

Zumindest sofern nVidia bei den beiden kleineren Ampere-Chips GA106 & GA107 nicht wieder andere Shader-Cluster ansetzt (arg unwahrscheinlich wegen des höheren Aufwands), läßt sich deren grobe Performance-Richtung durchaus schon auf Basis der vorhandenen, wenngleich von nVidia stammenden Benchmarks zu den größeren Ampere-Lösungen abschätzen. Hilfreich zu dieser Performance-Abschätzung ist auch der Quervergleich zur Pascal-Generation, deren Grafikkarten schließlich auch 128 CUDA-Cores per Shader-Cluster tragen und somit mit der Ampere-Generation sogar besser vergleichbar sind als die Modelle Turing-Generation. Danach sollten GA106-basierte Grafikkarten grob das Performance-Level einer GeForce GTX 1080 Ti anpeilen können, GA107-basierten Grafikkarten grob das Performance-Level einer GeForce GTX 1080. Sofern sich die technischen Voraussetzungen bei den Ampere-Chips GA106 & GA107 also nicht verschieben, führt der Performance-Sprung der Ampere-Generation somit dazu, dass im Mainstream- wie im Midrange-Segment nur zwei Generationen zurückliegende Spitzen-Beschleuniger (grob) erreicht werden sollten. Plakativ läßt sich dies anhand des GA106-Chips ermessen, welcher mit 3840 CUDA-Cores (wahrscheinlich) so viel FP32-Einheiten aufbieten wird wie einstmals die Titan Xp auf Basis des Vollausbaus des GP102-Chips.

Pascal Turing Ampere
GeForce RTX 3090
82 SM & 10496 CUDA-Cores @ 384 Bit GDDR6X
GeForce RTX 3080
68 SM & 8704 CUDA-Cores @ 320 Bit GDDR6X
     
GeForce RTX 2080 Ti
68 SM & 4352 CUDA-Cores @ 352 Bit GDDR6
GeForce RTX 3070
46 SM & 5888 CUDA-Cores @ 256 Bit GDDR6
GeForce RTX 2080 Super
48 SM & 3072 CUDA-Cores @ 256 Bit GDDR6
GeForce RTX 3060
~40 SM & ~5120 CUDA-Cores @ 256 Bit GDDR6
GeForce GTX 1080 Ti
28 SM & 3584 CUDA-Cores @ 352 Bit GDDR5X
GeForce RTX 2070 Super
40 SM & 2560 CUDA-Cores @ 256 Bit GDDR6
"GA106"
30 SM & 3840 CUDA-Cores @ 192 Bit GDDR6
GeForce RTX 2060 Super
34 SM & 2176 CUDA-Cores @ 256 Bit GDDR6
GeForce GTX 1080
20 SM & 2560 CUDA-Cores @ 256 Bit GDDR5X
GeForce RTX 2060
30 SM & 1920 CUDA-Cores @ 192 Bit GDDR6
"GA107"
20 SM & 2560 CUDA-Cores @ 128 Bit GDDR6
GeForce GTX 1070
15 SM & 1920 CUDA-Cores @ 256 Bit GDDR5
GeForce GTX 1660 Super
22 SM & 1408 CUDA-Cores @ 192 Bit GDDR6
Anmerkung: Sehr schematische Performance-Einordnung, kann im Detail beachtbar abweichen!

Nachtrag vom 4. September 2020

Mit dem Freitag-Abend sind erste Technik-Artikel zu Gaming-Ampere seitens ComputerBase, Hardwareluxx und PC Games Hardware erschienen, welche über viele Details jener Grafikchip-Architektur aufklären. Damit bestätigen sich auch die zuletzt an dieser Stelle getroffenen Angaben zu den größeren Ampere-Chips GA104 & GA102 – was die zusätzlich getroffenen Angaben zu den kleineren Ampere-Chips GA106 & GA107 nochmals glaubwürdiger macht, selbst wenn jene derzeit nicht offiziell bestätigt sind. Hinzugekommen in der tabellarischen Aufstellung ist nun noch eine Angabe zum Level2-Cache, zudem konnte die Anzahl der RT-Cores bestätigt werden. Wie nVidia die Verdopplung der FP32-Einheiten in den Shader-Clustern realisiert, wurde zwar auch schon an dieser Stelle beschrieben, nVidias offizielles Blockschaltbild eines GA102 Shader-Clusters zeichnet das ganze dann jedoch sogar nochmals eleganter: Der zweite Datenpfad mit FP32 oder INT32 wird einfach als eine (gemeinsame) Einheit abgebildet. Ob dies technisch wirklich so realisiert wurde, ist unklar – aber zumindest ist es somit einfacher verständlich, wo die Differenz in den Shader-Clustern von Turing und Ampere liegt:

Eine andere Offenbarung liegt in den Chip-Daten zu GA104 & GA102, wo bisher nur die Transistoren-Größe zum GA102-Chip (28 Mrd.) bekannt war. Diese befinden sich nunmehr auf einem 628mm² großen Chip – womit die Gerüchteküche einmal mehr richtig lag. Bei der Packdichte der Transistoren ergibt dies im übrigen einen heftigen Unterschied zum GA100-Chip aus TSMCs 7nm-Fertigung: Selbige liegt mit 65,4 Mio. Transistoren pro mm² augenscheinlich sehr weit vor Samsungs 8nm-Fertigung, welche beim GA102-Chip nur 44,6 Mio. Transistoren pro mm² realisieren kann (jene ist aber auch nur eine Verbesserung der 10nm-Fertigung, liegt also fast einen ganzen Node zurück). Der GA104-Chip von GeForce RTX 3060 & 3070 wird hingegen offiziell mit 17,4 Mrd. Transistoren auf 392mm² Chipfläche angegeben: Dies ist bei der Transistoren-Anzahl nur minimal weniger als beim TU102-Chip der GeForce RTX 2080 Ti (18,6 Mrd. Xtors auf 754mm²). Zu den kleineren Ampere-Chips GA106 & GA107 wurde (logischerweise) nichts gesagt, allerdings kann man jene anhand der bekannten Hardware-Daten und unter der Annahme, dass auch diese Grafikchips dann RT-Cores tragen werden, in Bezug auf Transistoren-Menge und vermutlicher Chipgröße schon schätzen. Klein werden auch diese Grafikchips (vermutlich) nicht, der GA107-Chip dürfte sogar beachtbar mehr Transistoren aufweisen als der frühere GP104-Chip von GeForce GTX 1070 & 1080 (7,2 Mrd. Xtors auf 314mm²).

GA107 GA106 GA104 GA102 GA100
Fertigung 8nm Samsung 7nm TSMC
Transistoren (geschätzt ~8-9 Mrd.) (geschätzt ~11,5-12 Mrd.) 17,4 Mrd. 28 Mrd. 54 Mrd.
Chipfläche (geschätzt ~180-200mm²) (geschätzt ~260-270mm²) 392mm² 628mm² 826mm²
Packdichte - - 44,4 Mio/mm² 44,6 Mio/mm² 65,4 Mio/mm²
GPC/SM/SI 2/20/128b 3/30/192b 6/48/256b 7/84/384b 8/128/6144b

Nachtrag vom 13. September 2020

Bei der PC Games Hardware spricht man über die finalen Daten zur GeForce RTX 3070, welche wie bekannt am 15. Oktober antritt. Dabei wird auch ein Blockschaltbild zum zugrundliegenden GA104-Chip aufgeboten, welches letzte Fragen zu dessen Hardware-Kapazitäten klärt. So tritt der GA104-Chip von GeForce RTX 3060 Ti & 3070 nunmehr doch mit 6 Raster-Engines an. Diesen Punkt hatte nVidia bei der offiziellen Ampere-Vorstellung offengelassen und oftmals wurden hierzu dann nur 4 Raster-Engines angenommen – was gut zu den maximal 48 Shader-Clustern des GA104-Chips passt. Allerdings trifft nun doch die alte Ampere-Vorhersage von Twitterer "Kopite7kimi" vollumfänglich zu, welcher bereits im Mai 2019 eben 6 GPC beim GA104-Chip notiert hatte. Im übrigen lag in der Detaillierheit dieser seinerzeitigen Daten ein Hauptgrund für deren Glaubwürdigkeit: Fakes kümmern sich in aller Regel nicht um solcherart kleinere Details, sondern suchen eher die plakative Zahl. In der Summe hat "Kopite7kimi" bisher drei von fünf realisierten Ampere-Chips vollkommen korrekt vorhergesagt – womit man annehmen darf, dass auch die Hardware-Daten zu den zwei übrigen Chips (GA106 & GA107) korrekt sind.

Für den GA104-Chip selber haben jene 6 anstatt 4 Raster-Engines dabei zwei Bedeutungen: Erstens einmal steigt damit die Anzahl der Raster Operation Units (ROPs) von 64 auf 96. Jene sind in der Ampere-Generation nicht mehr separat ausgeführt, sondern Teil des GPCs (Graphics Processing Clusters, Obereinheit einer Raster-Engine), korrelieren somit mit der Anzahl der GPCs bzw. Raster-Engines. Unter dem GA102-Chip enthält jeder GPC seine 16 ROP-Einheiten, somit maximal 112 ROPs beim GA102-Chip. Beim GA104-Chip ergibt dieser Aufbau dann immerhin noch 96 ROPs – und damit deutlich mehr als bei bisherigen nVidia-Grafikchips mit 256bittigem Speicherinterface (üblicherweise 64). Damit nähert sich der GA104-Chip dem GA102-Chip in diesen zwei Punkten – Raster-Engines & ROPs – doch ziemlich stark an, trotz einer erheblichen Differenz bei der Anzahl der maximalen Shader-Cluster (48 vs. 84). Hier dürfte auch der Grund dafür liegen, wieso nVidias eigene Ampere-Benchmarks nur eine Performance-Differenz von +35% zwischen GeForce RTX 3070 & 3080 ausgewiesen haben: Bei den Shader-Clustern liegen beide Grafikkarten zwar +48% auseinander, bei der Anzahl der Raster-Engines und ROPs herrscht allerdings sogar ein Gleichstand.

RTX3070 GA104 RTX3080 RTX3090 GA102
Raster-Engines (GPC) 6 6 6 7 7
Shader-Cluster (SM) 46 48 68 82 84
ROPs 96 96 96 112 112
Level2-Cache 4 MB 4 MB 5 MB 6 MB 6 MB
Speicherinterface 256 Bit GDDR6 256 Bit GDDR6 320 Bit GDDR6X 384 Bit GDDR6X 384 Bit GDDR6X