Auf seiner Hausmesse "GPU Technology Conference" (GTC 2017) hat nVidia den ersten Grafikchip der Volta-Generation [1] in Form des GV100-Chips für HPC-Aufgaben vorgestellt, welcher ab dem dritten Quartal verfügbar sein soll. Dabei überrascht der Volta-Chip zuerst durch seinen produktionstechnischen Ansatz: Nicht in der 10nm-Fertigung, sondern in der 12nm-Fertigung kommt der GV100-Chip daher. Daß dies kein gewaltiger Unterschied zur 16nm-Fertigung des Vorgänger-Chips GP100 ist, sieht man an der auf satte 815mm² explodierten Chipfläche, in welche nVidia allerdings nur (nominell) 40% mehr Ausführungseinheiten packen konnte. Hierbei geht nVidia ganz deutlich in Grenzbereiche der Chipfertigung – denn bisher ging man davon aus, das die Maximalgröße für (bei TSMC herstellbare) Grafikchips bei knapp 700mm² Chipfläche liegt. Ganz augenscheinlich ist die nachfolgende 10nm-Fertigung noch nicht in der Lage, für große Grafikchips Verwendung zu finden – wobei abzuwarten bleibt, was dies für die nachfolgenden Gaming-Grafikchips der Volta-Generation bedeutet (bisher bekannt sind GV102 & GV104 [2]).
|
In jene 815mm² Chipfläche packt nVidia dann auf 21,1 Mrd. Transistoren insgesamt 5376 Shader- und 336 Textureneinheiten an dem bekannten 4096 Bit HBM2-Speicherinterface, welches auch schon der Vorgänger-Chip GP100 [3] trägt. Wie beim GP100 beträgt das DP/SP-Verhältnis 1:2, interessanterweise wird die beim GP100-Chip noch wichtige "HalfPrecision" nicht mehr erwähnt. Dafür tragen die Shader-Cluster beim GV100-Chip nunmehr (neben FP32- und FP64-Einheiten) neue "Tensor Cores", welche eine besonders hohe Deep-Learning-Performance bieten sollen. Davon abgesehen ähnelt das GV100-Design doch recht stark dem GP100-Design [3], selbst die diversen kleineren Architekturverbesserungen, die nVidia angebracht haben will, ergeben immer noch nicht den von nVidia vorab propagandierten "großen Architektur-Schritt". Möglicherweise ergibt sich jener später noch unter Vorlage von mehr Details, möglicherweise sind damit auch schlicht nur die neuen "Tensor Cores" gemeint, möglicherweise war unter der flächenmäßig limitierenden 12nm-Fertigung auch nicht mehr drin.
![]() nVidia GV100 Blockdiagramm [5] |
![]() nVidia GV100 Shader-Cluster Blockdiagramm [7] |
Nichtsdestotrotz hat es nVidia geschafft, die meisten der früheren Projektionen und Vorhersagen zur Volta-Generation einzuhalten: Im März 2013 [8] versprach man grob 24 GFlops/Watt FP64-Leistung, im Dezember 2015 [9] dann rund 7 TFlops FP64-Rechenleistung, im März 2016 [10] erneut 23,5 GFlops/Watt FP64-Leistung – all dies konnte erreicht werden, selbst mit der Tesla V100 Karte, welche nicht einmal den Vollausbau des GV100-Chips trägt (bei solch extrem großen Chips wird man auch keinen Vollausbau in der Praxis sehen, hierbei geht Produktionsausbeute vor maximalmögliche Rechenleistung). Nur beim Speicherinterface hat nVidia leichte Abstriche gemacht: So wurden es nicht ganz 1 TB/sec Speicherbandbreite durch die Verwendung eines Speichertakts von 880 MHz (anstatt 1000 MHz), zudem wurde die einstmals angekündigte Verdopplung der Speichermenge derzeit noch nicht realisiert (möglicherweise Lieferschwierigkeiten bei HBM2-Speicher).
HalfPrecision | SinglePrecision | DoublePrecision | SP-Effizienz | DP-Effizienz | |
---|---|---|---|---|---|
Tesla M2090 (Fermi, GF110, 40nm, 225W, Mai 2011) | 1,33 TFlops | 1,33 TFlops | 0,66 TFlops | 5,9 GFlops/Watt | 3,0 GFlops/Watt |
Tesla K20X (Kepler, GK110, 28nm, 235W, Nov. 2012) | 3,93 TFlops | 3,93 TFlops | 1,31 TFlops | 16,7 GFlops/Watt | 5,6 GFlops/Watt |
Tesla K40 (Kepler, GK110B, 28nm, 235W, Nov. 2013) | 5,04 TFlops | 5,04 TFlops | 1,68 TFlops | 21,4 GFlops/Watt | 7,1 GFlops/Watt |
Tesla M40 (Maxwell, GM200, 28nm, 250W, Nov. 2015) | 6,84 TFlops | 6,84 TFlops | 0,21 TFlops | 27,4 GFlops/Watt | 0,9 GFlops/Watt |
Tesla P100 (Pascal, GP100, 16nm, 300W, April 2016) | 21,2 TFLops | 10,6 TFlops | 5,3 TFlops | 35,4 GFlops/Watt | 17,7 GFlops/Watt |
Tesla V100 (Volta, GV100, 12nm, 300W, Mai 2017) | ? | 14,9 TFlops | 7,5 TFlops | 49,7 GFlops/Watt | 24,8 GFlops/Watt |
Insofern kann man durchaus die Vermutung aufstellen, das nVidia den GV100-Chip niemals zwingend für die 10nm-Fertigung geplant hatte, sondern immer schon von einer weiteren Verwendung der 16nm-Fertigung ausgegangen ist – das es nun die (nur minimal abweichende) 12nm-Fertigung geworden ist, war wahrscheinlich zur Planungsphase noch nicht abzusehen. Die früheren Angaben zum GV100-Chip wurden dabei durch uns teilweise falsch gedeutet in die Richtung hin, das mittels des GV100-Chips eine Rechenleistungs-Verdopplung gegenüber dem GP100-Chip geplant gewesen sein sollte – was augenscheinlich nicht der Fall ist. Natürlich wäre auch noch eine späte Anpassung der Roadmap vorstellbar, mittels welcher der GV100-Chip zuerst auf der 10nm-Fertigung geplant war und dann mangels deren Verfügbarkeit auf die 12nm-Fertigung umgebogen werden musste. Ganz besonders wahrscheinlich erscheint diese Auflösung allerdings nicht, denn als 10nm-Chip wäre der GV100 nur knapp über 400mm² groß – was für einen HPC-Chip von nVidia dann wiederum verhältnismäßig klein wäre.
Was dies alles für die eigentlich interessanten Gaming-Chips der Volta-Generation bedeutet, ist noch nicht zu ermessen, hierzu hat nVidia auch noch gar nichts gesagt. Allenfalls kann man einige Interpolationen anbringen: So hatte nVidia letztes Jahr im April [3] den GP100-Chip und damit die Pascal-Generation [11] angekündigt – nur um dann schon im Mai mit der GeForce GTX 1080 [12] eine erste Pascal-basierte Gaming-Lösung vorzustellen. Gerade wenn nVidia auch für die Gaming-Chips der Volta-Generation die 12nm-Fertigung verwendet, stellt das Fertigungsverfahren sicherlich keinen Bremspunkt dar. Anderseits kann man der News-Übersicht zu Pascal [11] auch entnehmen, das es vor diesem Grafikkarten-Launch deutliche Anzeichen kommender Grafikkarten gab – was heuer bezüglich der Volta-Generation noch komplett fehlt. Wie nVidias Volta-Generation [1] unter der 12nm-Fertigung ungefähr aussehen könnte, läßt sich im übrigen schon anhand einer älteren (spekulativen) Meldung [2] ermessen: Seinerzeit noch mit der 16nm-Fertigung rechnend, sind grob 30-40% Performancezuwachs möglich – es sei denn, nVidia verändert bei den Gaming-Chips dann doch noch etwas gravierendes.
Nachtrag vom 16. Mai 2017
Ein interesantes Posting in unserem Forum [13] weist darauf hin, das nVidias Vorhersagen bzw. Versprechungen zur Volta-Generation gerade in früheren Jahren dann doch deutlich besseres erwarten lassen haben – beispielsweise eine DoublePrecision-Rechenleistung von immerhin gleich 9,5 TFlops (erreicht wurden 7,5 TFlops bei der Tesla V100) sowie ein Speicherausbau von 64 GB [14] (derzeit sind nur 16 GB geplant, 32 GB aber wenigstens möglich). Beide Vorhersagen waren wohl technisch bedingt nicht einzuhalten – wobei insbesondere die Angaben zur Rechenleistung ziemlich deutlich macht, das die Volta-Generation ursprünglich dann doch in der 10nm-Fertigung geplant gewesen sein muß. Auf Pascal-Taktraten (welche Volta derzeit erreicht) wären für diese Rechenleistung immerhin satte ~6500 Shader-Einheiten vonnöten – was niemals in die 16nm- oder die 12nm-Fertigung passt, wenn der GV100-Chip mit 5376 Shader-Einheiten schon seine 815mm² Chipfläche in der 12nm-Fertigung belegt. Erstaunlich nur, das nVidia in diesen früheren Roadmaps ergo also von einem regelrecht schnellen Wechsel von der 16nm- auf die 10nm-Fertigung innerhalb knapp eines Jahres ausgegangen sein muß – und dabei den Punkt ignorierte, das (ernsthafte) Fortschritte in der Fertigungstechnologie heutzutage einfach (viel) mehr Zeit brauchen als früher einmal.
Verweise:
[1] http://www.3dcenter.org/news/nvidia-volta
[2] http://www.3dcenter.org/news/nvidias-volta-generation-kommt-mit-den-grafikchips-gv104-gv102-und-gv110
[3] http://www.3dcenter.org/artikel/nvidia-kuendigt-den-pascal-chip-gp100
[4] http://www.3dcenter.org/dateien/abbildungen/nVidia-GV100-Blockdiagramm.png
[5] http://www.3dcenter.org/abbildung/nvidia-gv100-blockdiagramm
[6] http://www.3dcenter.org/dateien/abbildungen/nVidia-GV100-Shader-Cluster-Blockdiagramm.png
[7] http://www.3dcenter.org/abbildung/nvidia-gv100-shader-cluster-blockdiagramm
[8] http://www.3dcenter.org/news/nvidia-zeigt-neue-langfristige-tegra-gpu-roadmaps
[9] http://www.3dcenter.org/news/nvidia-verspricht-4-tflops-dp-fuer-pascal-7-tflops-dp-fuer-volta
[10] http://www.3dcenter.org/news/neuere-nvidia-roadmap-bestaetigt-pascal-details-sowie-praezisiert-pascal-volta-zielrichtung
[11] http://www.3dcenter.org/news/nvidia-pascal
[12] http://www.3dcenter.org/artikel/launch-analyse-nvidia-geforce-gtx-1080
[13] https://www.forum-3dcenter.org/vbulletin/showthread.php?p=11375637#post11375637
[14] http://www.3dcenter.org/abbildung/nvidia-gpu-roadmap-2008-2018-speichermenge