13

Wie nVidias "Volta" Gaming-Chips unter der 12nm-Fertigung aussehen könnten

Nachdem nVidia mit dem GV100 den ersten Grafikchip der Volta-Generation offenbart hat, stellt sich natürlich die Frage, wie es abseits dieses reinen HPC-Chips weitergeht mit den (viel interessanteren) Gamer-Chips der Volta-Generation. Hierzu hat nVidia faktisch gar nichts gesagt, womit man derzeit fast nur spekulieren kann. Bekannt sind gerüchteweise die weiteren Volta-Chips GV102 & GV104 sowie die sich aus der GDDR6-Ankündigung ergebende Vermutung einer nVidia-Grafikkarte mit 384 Bit GDDR6-Speicherinterface zum Jahresanfang bis Frühling 2018. Zudem kann man natürlich mit den bekannten Daten der 12nm-Fertigung von TSMC arbeiten bzw. dem, was nVidia beim GV100-Chip hieraus gemacht hat – immer vorausgesetzt, die anderen Volta-Chips kommen wirklich im selben Fertigungsverfahren wie der GV100 daher.

Dies ist kein absolut feststehender Punkt, da nVidia auch schon innerhalb der Pascal-Generation leicht voneinander abweichende Fertigungsverfahren nutzt (16nm TSMC für GP100, GP102, GP104 & GP106 sowie 14nm Samsung für GP107 & GP108). Klar ist nur, das es nicht noch einmal die 14/16nm-Fertigung für GV102 & GV104 sein wird, da man zum einen damit keinen wesentlichen Fertigungsvorteil erlangen kann und da zum anderen die 12nm-Fertigung von TSMC augenscheinlich einsatzbereits ist. Aufgrund des wahrscheinlichen Erscheinungstermins erst zum Jahresanfang für Frühling 2018 ist aber auch die 10nm-Fertigung nicht gänzlich aus dem Rennen, da jene schließlich derzeit schon für die Massenfertigung erster Smartphone-SoCs Verwendung findet – und dann bis nächstes Jahr doch noch einiges an Zeit existiert, um den 10nm-Prozeß reif für große Grafikchips zu machen. Nichtsdestotrotz liegt die wahrscheinlichste Annahme natürlich darin, das nVidia auch für GV102 & GV104 weiterhin die 12nm-Fertigung nutzt. Genau auf dieser Schiene wollen wir nachfolgend spekulativ aufzeigen, wie die weiteren Volta-Chips aussehen könnten.

nVidia Pascal
GP107 GP106 GP104 GP102
Chipfläche 132mm² 200mm² 314mm² 471mm²
Raster-Engines 2 2 4 6
Shader-Cluster 6
= max. 768 Shader-Einheiten
10
= max. 1280 Shader-Einheiten
20
= max. 2560 Shader-Einheiten
30
= max. 3840 Shader-Einheiten
Speicherinterface 128 Bit GDDR5 192 Bit GDDR5 256 Bit GDDR5X 384 Bit GDDR5X

Als "Anker" für diese Spekulation eignet sich der GV102-Chip am besten, da für diesen das Speicherinterface (384 Bit GDDR6) faktisch schon bekannt ist und da jener bei der Chipgröße gewisse Grenzen der Wirtschaftlichkeit beachten muß, somit noch am ehesten als vernünftig einzuschätzbar erscheint. Wovon wir nicht ausgehen, ist das maßlose Hochtreiben der GV102-Chipfläche auf 600mm² oder mehr – dies hat sich nVidia zu Zeiten geleistet, wo es eine ausgereifte und damit dann auch (vergleichsweise) günstige 28nm-Fertigung gab (GM200 auf 601mm²) – aber vorher waren alle Enthusiasten-Chips kleiner als diese Größe (GK110 auf 551mm², GF100 auf 526mm²). Gerade weil für den GV102-Chip die Profi-Anwendung weitgehend entfällt (Aufgabe des GV100-Chips), darf der GV102 nicht gerade sehr viel größer als der GP102 werden – wir denken, 550mm² Chipfläche sind eine gute Annahme für den GV102-Chip der Volta-Generation.

Damit läßt sich einiges anstellen, bedenkt man das (mehr oder weniger) unveränderte Speicherinterface (es kommt der Support von GDDR6 hinzu, was aber technisch kaum abweichend von GDDR5X ist) sowie die wahrscheinlich wiederum gleiche Anzahl an Raster-Engines (wie beim GV100-Chip gleich zum Vorgänger-Chip). Insofern kann man sich beim Flächengewinn des GV102-Chips von (angenommen) 15-20% (zuzüglich 3% höherer Packdichte wie beim GV102-Chip) wohl gänzlich auf mehr Shader-Cluster konzentrieren. Da ein Shader-Cluster der Pascal-Generation gemäß eines GP104 Die-Shots runde 7mm² Chipfläche belegt, wären also selbst unter einer Chipfläche von "nur" 550mm² beim GV102-Chip immerhin gleich 14 mehr Shader-Cluster möglich. Da sich dies nicht gut auf 6 Raster-Engines aufteilen läßt, sind demzufolge eher "nur" 12 mehr Shader-Cluster beim GV102 anzunehmen, was insgesamt 42 Shader-Cluster auf einer Chipfläche von ~540mm² für diesen Grafikchip ergibt.

Die anderen beiden Volta-Grafikchips dürften äquivalent mit einem Zugewinn an Shader-Clustern um jeweils 40% folgen – sprich, 28 Shader-Cluster beim GV104-Chip sowie 14 Shader-Cluster beim GV106-Chip (Anzahl der Shader-Cluster passt jeweils auch zur Anzahl der Raster-Engines). Daten zu weiteren (hypothetischen) Volta-Chips wollen wir an dieser Stelle besser noch nicht spekulieren, da es sehr gut möglich ist, das nVidia die kleineren Pascal-Chips GP107 & GP108 in der kostengünstigen 14nm-Fertigung von Samsung auch im Volta-Zeitalter weiterverwendet, an deren Stelle also keine neuen Volta-Chips auflegt. Für GV102, GV104 & GV106 ist dies in jedem Fall eine defensive, eher pessimistische Rechnung – welche allerdings den Vorteil hat, ziemlich sicher mindestens zuzutreffen. Unter "nur" 40% mehr Shader-Einheiten hat nVidia zudem auch den Vorteil, das die Chips nicht wirklich viel größer werden, die Produktionskosten somit im Rahmen bleiben und vielleicht sogar ein wenig Reserve herauskommt, um die Taktraten eventuell etwas anzuheben.

Volta-Spekulation #1 (eher pessimistisch)
GV106 GV104 GV102
Chipfläche ~220mm²  (+10%) ~360mm²  (+15%) ~540mm²  (+15%)
Raster-Engines 2 4 6
Shader-Cluster 14  (+40%)
= max. 1792 Shader-Einheiten
28  (+40%)
= max. 3584 Shader-Einheiten
42  (+40%)
= max. 5376 Shader-Einheiten
Speicherinterface 192 Bit GDDR5X 256 Bit GDDR6 384 Bit GDDR6

Daneben kann man natürlich auch optimistischere Prognosen aufmachen – beispielsweise mit noch etwas höherer Anzahl an Shader-Einheiten, genauso aber auch unter einer Erhöhung der Anzahl der Raster-Engines. Selbiges bietet sich durchaus an, wenn man die Anzahl der Shader-Einheiten um 40% oder mehr erhöht, ist dafür allerdings schwerer ins Transistoren-Budget zu bekommen und erzwingt in jedem Fall größere Grafikchips. Hinzu kommt, das mit einer anderen Anzahl an Raster-Engines auch meistens die Anzahl der Shader-Cluster passend hierfür gemacht werden muß. Der GV102-Chip mit angenommen 8 Raster-Engines kann dann nicht mehr mit 42 Shader-Clustern erscheinen (die Anzahl der Shader-Cluster müssen ein Vielfaches der Anzahl der Raster-Engines sein) – 40 oder 48 Shader-Cluster wären hierfür passende Größen.

Allerdings sind beide Werte schwer darstellbar: Bei "nur" 40 Shader-Clustern lohnen die gleich zwei mehr Raster-Engines kaum – bei dagegen 48 Shader-Clustern samt 8 Raster-Engines würde dagegen die Chipfläche auf gleich ~615mm² explodieren, was nicht besonders wahrscheinlich ist. Sofern man die Chipfläche nicht all zu sehr nach oben drehen will, sind beispielsweise 7 Raster-Engines denkbar – dies steigert die Raster-Power wenigstens ein bißchen und ermöglicht zudem wieder die Verwendung der vorgenannten 42 Shader-Cluster. Auch bei GV104 & GV106 sind in diesem Gedankenansatz dann mehr Raster-Engines möglich – mit zudem leicht höherer Anzahl an Shader-Einheiten, damit es wieder zur Anzahl der Raster-Engines passt: GV104 würde somit in dieser optimistischen Prognose gleich 5 Raster-Engines samt 30 Shader-Cluster mitbringen, GV106 dann 3 Raster-Engines samt 15 Shader-Cluster.

Volta-Spekulation #2 (optimistisch)
GV106 GV104 GV102
Chipfläche ~245mm²  (+23%) ~390mm²  (+24%) ~555mm²  (+18%)
Raster-Engines 3  (+50%) 5  (+25%) 7  (+17%)
Shader-Cluster 15  (+50%)
= max. 1920 Shader-Einheiten
30  (+50%)
= max. 3840 Shader-Einheiten
42  (+40%)
= max. 5376 Shader-Einheiten
Speicherinterface 192 Bit GDDR5X 256 Bit GDDR6 384 Bit GDDR6

Will man es ganz extrem machen, kann man sogar die These aufstellen, wonach nVidia schlicht und ergreifend überall 50% oben drauf legt – sowohl bei den Raster-Engines als auch bei den Shader-Clustern. Symetrisch und damit technisch korrekt ist dieser Ansatz sicherlich, das Performance-Gefüge der Grafikchips untereinander wäre vollständig gleich zum bisher bekannten bei der Pascal-Generation. Es stellt sich nur die Frage, ob nVidia wirklich so viel Chipfläche in der sicherlich nicht ganz günstigen 12nm-Fertigung investieren will: Der GV104-Chip käme damit dann auf ~410mm², der GV102-Chip auf gleich ~615mm² Chipfläche. Dies ergibt dann eine schon regelrecht extrem optimistische Prognose, welche unserer Meinung nach keine große Chance auf Erfüllung hat.

Volta-Spekulation #3 (extrem optimistisch)
GV106 GV104 GV102
Chipfläche ~245mm²  (+23%) ~410mm²  (+31%) ~615mm²  (+31%)
Raster-Engines 3  (+50%) 6  (+50%) 9  (+50%)
Shader-Cluster 15  (+50%)
= max. 1920 Shader-Einheiten
30  (+50%)
= max. 3840 Shader-Einheiten
45  (+50%)
= max. 5760 Shader-Einheiten
Speicherinterface 192 Bit GDDR5X 256 Bit GDDR6 384 Bit GDDR6

Alle diese aufgestellten Spekulationen können natürlich noch maßgeblich durcheinandergeraten, sofern nVidia bei den kleineren Volta-Chips einen anderen Flächenvorteil aus der 12nm-Fertigung herausholt als wie mit dem GV100-Chip geschehen (nur -3,2%). Auch andere, derzeit nicht überblickbare Effekte können diese Spekulationen noch durcheinanderwerfen. Andererseits sind 40-50% mehr Shader-Einheiten als Zielgröße bei einem Half-Node wie der 12nm-Fertigung eine absolut übliche, sogar schon eher gutklassige Ansetzung. Auf größere Taktratengewinne sollte man dagegen nicht spekulieren, in diesem Fall dürften die Vorteile der 12nm-Fertigung (+10% höhere Taktraten oder aber -25% niedrigerer Stromverbrauch) eher dafür eingesetzt werden, den Stromverbrauch der Volta-Grafikchips im Zaum zu halten. Viel mehr sollte man sich von der Volta-Generation nicht versprechen – und wenn uns nVidia am Ende doch mit etwas höherwertigerem überrascht, dann um so besser.

Nachtrag vom 14. Mai 2017

Der Spekulations-Artikel zu den Volta-basierten Gaming-Chips beschäftigt sich erst einmal nur mit dem grundsätzlichen Chip-Aufbau der (wahrscheinlich) kommenden Volta-Chips GV102, GV104 & GV106 – und noch nicht damit, was letztlich an Performance-Zugewinn durch jene erreichbar ist. Dies ist natürlich zum einen eine Frage der konkret angesetzten Chip-Spezifikationen, zum anderen aber auch der jeweiligen Taktraten. TSMCs 12nm-Prozeß ist durchaus zu etwas höheren Taktraten in der Lage (+10% Takt oder -25% Stromersparnis gegenüber 16FF+) – allerdings darf etwas bezweifelt werden, das nVidia zumindest das Taktpotential ausreizen wollte, weil die nun einmal größer werdenden Volta-Chips dann auch einen größeren insgesamten Stromverbrauch erreichen würden. Eher wahrscheinlich ist, das nVidia den Stromverbrauch der Volta-Grafikkarten ähnlich dem Stromverbrauch der Pascal-Grafikkarten anzusetzen versucht – und angesichts größerer Chipflächen und mehr Hardware-Einheiten verbieten sich höhere Taktraten dann von allein, wird man eher versuchen, mit den -25% Stromersparnis der 12nm-Fertigung zu arbeiten. Jene könnte je nach Rechnung ausreichend sein, um die Volta-Chip auf das Stromverbrauchs-Niveau von Pascal zu bringen, alternativ wird es leicht mehr als bei Pascal werden.

In jedem Fall sind die Möglichkeiten zur Taktratensteigerung bei Volta aufgrund dieser Ausgangslage stark limitiert, kann man sich fast rein auf die höhere Anzahl an Hardware-Einheiten konzentrieren. Deren nominelle Mehrleistung muß natürlich immer auch auf die Schiene gebracht werden – was bei gleichbleibender Anzahl an Raster-Einheiten schwieriger ist als bei einer steigenden Anzahl, und letztlich auch eine passende Speicherbandbreite voraussetzt. In der letzten Frage gibt es durch die Verwendung von GDDR6-Speicher wohl die wenigsten Bedenken, Speicherbandbreite dürften die Volta-Chips genügend mitbekommen. Für den Fall der Raster-Einheiten existieren zudem die verschiedenen Gedankenansätze des vorgenannten Spekulations-Artikels – einmal mit und einmal ohne Steigerung von deren Anzahl. Abzüglich gewisser Effizienzverluste und je nach konkret aussehender Hardware der Volta Gamer-Chips ist von diesen somit eine Performance-Steigerung von 30-45% zu erwarten. Dies stellt natürlich nur eine mittlere Schätzung dar, welche durch vielerlei Effekte noch beeinflußt werden kann. Etwas genaueres als diese grobe Schätzung abzugeben, lohnt allerdings aus derzeitiger Sicht und ohne wirklich handfeste Daten zu den einzelnen Volta-Chips zu haben, noch nicht.

Nachtrag vom 17. Mai 2017

Bezüglich unseres kürzlichen Spekulations-Artikels zu nVidias Volta-Grafikchips unter der 12nm-Fertigung gibt es den nicht so einfach von der Hand zu weisenden Einwand, das unsere Spekulationen gleich allesamt sehr optimistisch sind, da die (angenommenen) Chipflächen nur maßvoll steigen bei gleichzeitig trotzdem um 40-50% zunehmender Anzahl an Shader-Clustern. Diese unsere Spekulation basiert an dieser Stelle natürlich auf der These, das nVidia im Grafikchipdesign der Volta-Gamerchips mehr oder weniger gar nichts gegenüber der Pascal-Generation geändert hat – und auch nur dann funktioniert unsere Spekulation. Man kann hierzu aber natürlich auch noch in andere Richtungen denken, in welchen das Volta-Chipdesign auch bei den Gamerchips klar verändert wird und demzufolge trotz gleicher Einheiten-Anzahl mehr Chipfläche belegt (und somit die Steigerung der Einheiten-Anzahl effektiv limitiert).

Sicherlich werden die Gamerchips von Volta andere Änderungen tragen als der GV100-Chip mit seinen bei GV102, GV104 & GV106 kaum verbauten Tensor-Cores, nichtsdestotrotz gibt es hierfür ja Beispiele aus der Vergangenheit: So kam unter der 28nm-Fertigung der GK104-Chip mit 1536 Shader-Einheiten an einem 256 Bit GDDR5-Speicherinterface auf eine Chipfläche von 294mm², der nachfolgende GM204-Chip benötigte hingegen mit "nur" 2048 Shader-Einheiten an einem 256 Bit GDDR5-Speicherinterface gleich eine Chipfläche von 398mm². Hier stieg also die Anzahl der Shader-Einheiten um +33%, die Chipfläche dagegen um sogar leicht größere +35% – obwohl Shader-Einheiten bestenfalls 50% des Grafikchips belegen und damit angesichts dieser Ansetzung eine geringere Steigerung der Chipfläche zu erwarten wäre. Allerdings hatte nVidia zwischen der Kepler- und der Maxwell-Generation einen großen Sprung in der Grafikchip-Architektur gemacht, wurde die Recheneffizienz und vor allem die Taktbarkeit von Maxwell (wie bekannt) deutlich erhöht.

Chipfläche Raster-Engines Shader-Einheiten Speicherinterface Performance
nVidia GK104 294mm² 4 1536 256 Bit GDDR5 380%  (GeForce GTX 770)
nVidia GM204 398mm² 4 2048 256 Bit GDDR5 600%  (GeForce GTX 980)
Differenz +35% gleich +33% gleich +58%

All dies verbrauchte mehr Transistoren, welche sich nur bedingt an der reinen Anzahl der Hardware-Einheiten festmachen lassen, welche sich dagegen aber bei der Performance wiederspiegeln: Bei 35% mehr Chipfläche erreichte der GM204-Chip in Form der GeForce GTX 980 eine um +58% höhere Performance gegenüber dem GK104-Chip (in Form der GeForce GTX 770). In der Summe der Dinge sind somit beide Wege möglich: Einen Grafikchip zu kreieren mit nominell gar nicht einmal so viel mehr an Hardware-Einheiten, dafür aber internen Verbesserungen, welche zwar die Chipfläche hochtreiben, aber eben auch ein gutes Performanceplus abgeben – oder aber der sehr einfache Weg der Verwendung der gleichen Grafikchiparchitektur mit einfach mehr Ausführungseinheiten, welche bei Verfügbarkeit von mehr Speicherbandbreite durch schnellere Speicher (wie in diesem Fall durch GDDR6 gegeben) am Ende das gleiche bieten könnten: Steigende Chipfläche, aber auch deutlich mehr Performance – zumindest so lange die Recheneffizienz bei Weiterverwendung derselben Grafikchip-Architektur nicht absinkt. Welchen Weg nVidia bei den Volta-Gamingchips geht, bleibt jedoch (mangels hierzu vorliegender Informationen) einfach abzuwarten.