1

nVidia soll mit "Ampere" einen Performance-Sprung von +70-75% (im HPC-Bereich) bringen

Weit beachtet wird derzeit eine Meldung seitens The Next Platform (via Videocardz), welche sich mit dem kommenden "Big Red 200" Supercomputer der Indiana University in Bloomington (USA) beschäftigt. Jener Supercomputer wird derzeit aufgebaut und beinhaltet in einem ersten Schritt 672 Dual-Socket Nodes mit AMD "Rome" Epyc 7742 Prozessoren, sprich es geht mit der netten Nummer von 86'016 CPU-Kernen los. In der zweiten Phase, welche im Sommer startet, kommen weitere AMD-Prozessoren sowie Grafik-Beschleuniger aus einer neuen nVidia-Generation hinzu. Zu jener wurden offiziell weder Roß noch Reiter genannt, aber es ist klar, das es sich hierbei um HPC-Lösungen basierend auf nVidias Ampere-Architektur handelt. Ursprünglich war jener "Red 200" Supercomputer noch auf Volta-Basis (mit Tesla V100 HPC-Beschleunigern) gedacht, nun aber wird eine etwas kleinere Anzahl an Ampere-Grafiklösungen eingesetzt, um allerdings dennoch die insgesamte Rechenleistung von 5,9 auf knapp 8 PetaFlops zu steigern. Die entscheidende Information hierzu steht nur im Nebensatz, ist aber um so spannender:

The newer silicon is expected to deliver 70 percent to 75 percent more performance than that of the current generation.
Quelle:  The Next Platform über die Grafik-Beschleuniger des "Red 200" Supercomputers, vom 30. Januar 2020

Hierbei handelt es sich aller Wahrscheinlichkeit nach um eine direkte Performance-Angabe zwischen der Volta-basierten Tesla V100 und deren Ampere-basierten Nachfolgerlösung – und somit indirekt um eine Angabe zur Performance-Steigerung zwischen Volta und Ampere im HPC-Bereich. Die Angabe selber dürfte dann ziemlich sicher direkt von nVidia stammen, welche hierfür ihre eigenen Performance-Projektionen bemüht haben werden – ist also im Gegensatz zu allen bisherigen Gerüchte-Angaben ziemlich solide. Dabei kann der HPC-Bezug dieser Angaben nicht oft genug betont werden, denn nVidias Pläne im Gaming-Segment können gänzlich anders aussehen – ergo darf man sich bezüglich "Gaming-Ampere" nicht an diesen +70-75% festhalten. Nichtsdestotrotz ergibt sich natürlich eine gewisse Abhängigkeit: Der Performance-Zuwachs im HPC-Zuwachs entspricht in aller Regel dem technisch maximal machbaren, ergo dürfte es im Gaming-Bereich bestenfalls dieserart Zuwächse geben. Je nachdem, wie sicher sich nVidia in seiner Marktstellung fühlt oder auch lieber kleinere Grafikchips zugunsten höherer Gewinnmargen bevorzugt, dürften die Performance-Zuwächse von Ampere im Gaming-Segment somit etwas kleiner ausfallen – viel mehr als +50-60% sollte man besser nicht erwarten.

All dies deckt sich im übrigen ziemlich gut mit einem früheren Gerücht/Leak zu Ampere: Hierbei wird der HPC-Chip "GA100" (indirekt) mit 8192 Shader-Einheiten beschrieben, womit man sehr gut jene Performance-Steigerung um +70-75% erzielen kann: Dies sind erst einmal +52% mehr Shader-Einheiten gegenüber dem bisherigen GV100-Chip, der Rest kommt dann über gewisse Taktraten-Steigerungen – hierbei dürfte der große Sprung von der 12nm- auf die 7nm-Fertigung wohl einiges möglich machen, gerade da die bisherigen Telsa-Beschleuniger vergleichsweise niedrig takten. Der "Rest" des Ampere-Portfolios läßt sich davon ausgehend mit einiger Zielsicherheit interpolieren, schließlich sind die Abstufungen zwischen den einzelnen Marktsegmenten obligatorisch und geht es fast nur um den Ansatzpunkt, auf welchem der größte Gaming-Chip der Ampere-Generation (wahrscheinlich "GA102") angesetzt wird. In unserer nachfolgenden (spekulativen) Projektion erhalten die Gaming-Chips von Ampere grob +40-50% mehr Shader-Einheiten, was dann unter Einrechnung von potentiellen Architektur-Fortschritten auf +50-60% mehr Gaming-Performance hinauslaufen könnte.

Segment Chipfläche mögliche Grafikkarten Technik Vorgänger-Chip(s)
GA100  (altern. "AM100") HPC ~800mm² Tesla & Titan 8192 SE @ 6144 Bit HBM2 GV100: 5376 SE @ 4096 Bit HBM2
GA101  (altern. "AM101") HPC ~450mm² Tesla & Titan 4096 SE @ 3072 Bit HBM2 -
GA102  (altern. "AM102") Enthusiast 600-700mm² GeForce RTX 3080 Ti ca. 6000-7000 Shader-Einheiten TU102: 4608 SE @ 384 Bit GDDR6
GA104  (altern. "AM104") HighEnd 450-500mm² GeForce RTX 3070 & 3080 ca. 4000-5000 Shader-Einheiten TU104: 3072 SE @ 256 Bit GDDR6
GA106  (altern. "AM106") Midrange 300-350mm² GeForce RTX 3060 ca. 2500-3000 Shader-Einheiten TU106: 2304 SE @ 256 Bit GDDR6
TU116: 1536 SE @ 192 Bit GDDR6
GA107  (altern. "AM107") Mainstream 200-250mm² GeForce RTX/GTX 3050 ca. 1500-1800 Shader-Einheiten TU117: 1024 SE @ 128 Bit GDDR5
GA108  (altern. "AM108") LowCost 140-170mm² GeForce RTX/GTX 3040 ca. 1000 Shader-Einheiten -
Die Angaben dieser Tabelle zu Ampere-Chips sind voll spekulativ.

Dabei sollte man einrechnen, das nVidia bei den nach Turing nachfolgenden Grafik-Generationen ein generell größeres Augenmerk darauf legen dürfte, anstatt der normalen Rendering-Power eher denn die RayTracing-Power zu steigern. Dies passiert rein taktisch, um irgendwann einmal die Hardware-fressende RayTracing-Grafik durchgesetzt zu haben und somit langfristig einen erhöhten Bedarf an Grafik-Power bzw. neuen, leistungsfähigeren Grafikchips zu schaffen. Wahrscheinlich ist schon die Ampere-Generation ein erster bedeutsamer Schritt auf diesem Weg, denn das vorgenannte Gerücht/Leak vermeldet auch einen diesbezüglich sehr gewichtigen Punkt: Bei der Ampere-Architektur soll die Anzahl der Tensor-Cores pro Shader-Cluster glatt verdoppelt werden. Zusammen mit einer grob um +50% zunehmenden Anzahl an Shader-Clustern gehen die Tensor-Cores zwischen Turing und Ampere also gleich auf das ungefähr Dreifache hoch.

Ausgehend von dieser (Gerüchte-basierten) Aussage zu den Tensor-Cores kann man dann gut und gerne annehmen, das dies bei den RayTracing-Kernen genauso passiert. Sollte dann auch hier eine grobe Verdreifachung zwischen Turing und Ampere stattfinden, wäre damit das Thema der Ampere-Generation gefunden – es würde primär um eine brachiale Steigerung der RayTracing-Performance gehen. Denn mit dem dreifachen RayTracing-Power würde zumindest für aktuelle RayTracing-Titel das Problem aus dem Weg geräumt werden, das man oftmals die Auflösung zugunsten einer spielbaren Performance heruntersetzen muß – eine Behelfsmaßnahme, welche gerade zu Käufern von (teuren) HighEnd- und Enthusiasten-Grafikkarten schlecht passt. Mit einer RayTracing-Power, welche keinen aktuellen RayTracing-Titel fürchten muß, würde das Thema "RayTracing" vom netten Gimmick zum problemlos nutzbaren Grafik-Feature werden – und somit den Verkauf entsprechender Beschleuniger ankurbeln wie auch den Spiele-Entwicklern mehr Anreize geben, in diese Richtung hin zu entwicklen.

Derzeit ist dies aber nur eine pure Spekulation – es ist ja noch nicht einmal klar, ob die (Gerüchte-basierten) Aussage zur Verdopplung der Tensor-Cores per Shader-Cluster sich überhaupt auf die komplette Ampere-Generation bezieht, oder eben eventuell auch nur auf dessen HPC-Ausführungen. Allerdings läßt sich der vorstehenden Meldung zum "Big Red 200" Supercomputer mit Ampere HPC-Beschleunigern auch entnehmen, das nVidia zum einen nunmehr spruchreif zumindest mit dem HPC-Chip "GA100" sein dürfte und somit zum anderen damit nicht mehr lange hinter dem Berg halten kann. Somit wird es immer wahrscheinlicher, das auf nVidias Hausmesse "GPU Technology Conference" (GTC, 23.-26. März in San Jose) dann die Ampere-Architektur zumindest für den HPC-Bereich ausgepackt wird. Zu Gamer-Lösungen dürfte nVidia im Rahmen der GTC sicherlich kaum etwas sagen (gerade wenn man mit neuen HPC-Beschleunigern bereits ein großes Thema hat), aber eventuell läßt sich aus der reinen Architektur-Ankündigung schon einiges griffiges mitnehmen, welches dann auch für "Gaming-Ampere" gilt.