10

nVidia stellt den Volta-Chip GV100 mit 5376 Shader-Einheiten unter der 12nm-Fertigung vor

Auf seiner Hausmesse "GPU Technology Conference" (GTC 2017) hat nVidia den ersten Grafikchip der Volta-Generation in Form des GV100-Chips für HPC-Aufgaben vorgestellt, welcher ab dem dritten Quartal verfügbar sein soll. Dabei überrascht der Volta-Chip zuerst durch seinen produktionstechnischen Ansatz: Nicht in der 10nm-Fertigung, sondern in der 12nm-Fertigung kommt der GV100-Chip daher. Daß dies kein gewaltiger Unterschied zur 16nm-Fertigung des Vorgänger-Chips GP100 ist, sieht man an der auf satte 815mm² explodierten Chipfläche, in welche nVidia allerdings nur (nominell) 40% mehr Ausführungseinheiten packen konnte. Hierbei geht nVidia ganz deutlich in Grenzbereiche der Chipfertigung – denn bisher ging man davon aus, das die Maximalgröße für (bei TSMC herstellbare) Grafikchips bei knapp 700mm² Chipfläche liegt. Ganz augenscheinlich ist die nachfolgende 10nm-Fertigung noch nicht in der Lage, für große Grafikchips Verwendung zu finden – wobei abzuwarten bleibt, was dies für die nachfolgenden Gaming-Grafikchips der Volta-Generation bedeutet (bisher bekannt sind GV102 & GV104).

    nVidia GV100

  • 21,1 Milliarden Transistoren auf 815mm² Chipfläche
  • 12nm-Fertigung von TSMC
  • 6 Raster-Engines
  • 84 Shader-Cluster (mit jeweils 64 Shader- und 4 Textureneinheiten)
  • insgesamt 5376 Shader- und 336 Textureneinheiten
  • 6 MB Level2-Cache
  • 4096 Bit HBM2-Speicherinterface
  • 16 GB HBM2-Speicher
  • darauf basierende Profi-Lösung Tesla V100 mit 5120 Shader-Einheiten und Taktraten von 1455/880 MHz zu 300W TDP
  • Auslieferung ab dem dritten Quartal 2017

In jene 815mm² Chipfläche packt nVidia dann auf 21,1 Mrd. Transistoren insgesamt 5376 Shader- und 336 Textureneinheiten an dem bekannten 4096 Bit HBM2-Speicherinterface, welches auch schon der Vorgänger-Chip GP100 trägt. Wie beim GP100 beträgt das DP/SP-Verhältnis 1:2, interessanterweise wird die beim GP100-Chip noch wichtige "HalfPrecision" nicht mehr erwähnt. Dafür tragen die Shader-Cluster beim GV100-Chip nunmehr (neben FP32- und FP64-Einheiten) neue "Tensor Cores", welche eine besonders hohe Deep-Learning-Performance bieten sollen. Davon abgesehen ähnelt das GV100-Design doch recht stark dem GP100-Design, selbst die diversen kleineren Architekturverbesserungen, die nVidia angebracht haben will, ergeben immer noch nicht den von nVidia vorab propagandierten "großen Architektur-Schritt". Möglicherweise ergibt sich jener später noch unter Vorlage von mehr Details, möglicherweise sind damit auch schlicht nur die neuen "Tensor Cores" gemeint, möglicherweise war unter der flächenmäßig limitierenden 12nm-Fertigung auch nicht mehr drin.

nVidia GV100 Blockdiagramm
nVidia GV100 Blockdiagramm
nVidia GV100 Shader-Cluster Blockdiagramm
nVidia GV100 Shader-Cluster Blockdiagramm

Nichtsdestotrotz hat es nVidia geschafft, die meisten der früheren Projektionen und Vorhersagen zur Volta-Generation einzuhalten: Im März 2013 versprach man grob 24 GFlops/Watt FP64-Leistung, im Dezember 2015 dann rund 7 TFlops FP64-Rechenleistung, im März 2016 erneut 23,5 GFlops/Watt FP64-Leistung – all dies konnte erreicht werden, selbst mit der Tesla V100 Karte, welche nicht einmal den Vollausbau des GV100-Chips trägt (bei solch extrem großen Chips wird man auch keinen Vollausbau in der Praxis sehen, hierbei geht Produktionsausbeute vor maximalmögliche Rechenleistung). Nur beim Speicherinterface hat nVidia leichte Abstriche gemacht: So wurden es nicht ganz 1 TB/sec Speicherbandbreite durch die Verwendung eines Speichertakts von 880 MHz (anstatt 1000 MHz), zudem wurde die einstmals angekündigte Verdopplung der Speichermenge derzeit noch nicht realisiert (möglicherweise Lieferschwierigkeiten bei HBM2-Speicher).

HalfPrecision SinglePrecision DoublePrecision SP-Effizienz DP-Effizienz
Tesla M2090  (Fermi, GF110, 40nm, 225W, Mai 2011) 1,33 TFlops 1,33 TFlops 0,66 TFlops 5,9 GFlops/Watt 3,0 GFlops/Watt
Tesla K20X  (Kepler, GK110, 28nm, 235W, Nov. 2012) 3,93 TFlops 3,93 TFlops 1,31 TFlops 16,7 GFlops/Watt 5,6 GFlops/Watt
Tesla K40  (Kepler, GK110B, 28nm, 235W, Nov. 2013) 5,04 TFlops 5,04 TFlops 1,68 TFlops 21,4 GFlops/Watt 7,1 GFlops/Watt
Tesla M40  (Maxwell, GM200, 28nm, 250W, Nov. 2015) 6,84 TFlops 6,84 TFlops 0,21 TFlops 27,4 GFlops/Watt 0,9 GFlops/Watt
Tesla P100  (Pascal, GP100, 16nm, 300W, April 2016) 21,2 TFLops 10,6 TFlops 5,3 TFlops 35,4 GFlops/Watt 17,7 GFlops/Watt
Tesla V100  (Volta, GV100, 12nm, 300W, Mai 2017) ? 14,9 TFlops 7,5 TFlops 49,7 GFlops/Watt 24,8 GFlops/Watt

Insofern kann man durchaus die Vermutung aufstellen, das nVidia den GV100-Chip niemals zwingend für die 10nm-Fertigung geplant hatte, sondern immer schon von einer weiteren Verwendung der 16nm-Fertigung ausgegangen ist – das es nun die (nur minimal abweichende) 12nm-Fertigung geworden ist, war wahrscheinlich zur Planungsphase noch nicht abzusehen. Die früheren Angaben zum GV100-Chip wurden dabei durch uns teilweise falsch gedeutet in die Richtung hin, das mittels des GV100-Chips eine Rechenleistungs-Verdopplung gegenüber dem GP100-Chip geplant gewesen sein sollte – was augenscheinlich nicht der Fall ist. Natürlich wäre auch noch eine späte Anpassung der Roadmap vorstellbar, mittels welcher der GV100-Chip zuerst auf der 10nm-Fertigung geplant war und dann mangels deren Verfügbarkeit auf die 12nm-Fertigung umgebogen werden musste. Ganz besonders wahrscheinlich erscheint diese Auflösung allerdings nicht, denn als 10nm-Chip wäre der GV100 nur knapp über 400mm² groß – was für einen HPC-Chip von nVidia dann wiederum verhältnismäßig klein wäre.

Was dies alles für die eigentlich interessanten Gaming-Chips der Volta-Generation bedeutet, ist noch nicht zu ermessen, hierzu hat nVidia auch noch gar nichts gesagt. Allenfalls kann man einige Interpolationen anbringen: So hatte nVidia letztes Jahr im April den GP100-Chip und damit die Pascal-Generation angekündigt – nur um dann schon im Mai mit der GeForce GTX 1080 eine erste Pascal-basierte Gaming-Lösung vorzustellen. Gerade wenn nVidia auch für die Gaming-Chips der Volta-Generation die 12nm-Fertigung verwendet, stellt das Fertigungsverfahren sicherlich keinen Bremspunkt dar. Anderseits kann man der News-Übersicht zu Pascal auch entnehmen, das es vor diesem Grafikkarten-Launch deutliche Anzeichen kommender Grafikkarten gab – was heuer bezüglich der Volta-Generation noch komplett fehlt. Wie nVidias Volta-Generation unter der 12nm-Fertigung ungefähr aussehen könnte, läßt sich im übrigen schon anhand einer älteren (spekulativen) Meldung ermessen: Seinerzeit noch mit der 16nm-Fertigung rechnend, sind grob 30-40% Performancezuwachs möglich – es sei denn, nVidia verändert bei den Gaming-Chips dann doch noch etwas gravierendes.

Nachtrag vom 16. Mai 2017

Ein interesantes Posting in unserem Forum weist darauf hin, das nVidias Vorhersagen bzw. Versprechungen zur Volta-Generation gerade in früheren Jahren dann doch deutlich besseres erwarten lassen haben – beispielsweise eine DoublePrecision-Rechenleistung von immerhin gleich 9,5 TFlops (erreicht wurden 7,5 TFlops bei der Tesla V100) sowie ein Speicherausbau von 64 GB (derzeit sind nur 16 GB geplant, 32 GB aber wenigstens möglich). Beide Vorhersagen waren wohl technisch bedingt nicht einzuhalten – wobei insbesondere die Angaben zur Rechenleistung ziemlich deutlich macht, das die Volta-Generation ursprünglich dann doch in der 10nm-Fertigung geplant gewesen sein muß. Auf Pascal-Taktraten (welche Volta derzeit erreicht) wären für diese Rechenleistung immerhin satte ~6500 Shader-Einheiten vonnöten – was niemals in die 16nm- oder die 12nm-Fertigung passt, wenn der GV100-Chip mit 5376 Shader-Einheiten schon seine 815mm² Chipfläche in der 12nm-Fertigung belegt. Erstaunlich nur, das nVidia in diesen früheren Roadmaps ergo also von einem regelrecht schnellen Wechsel von der 16nm- auf die 10nm-Fertigung innerhalb knapp eines Jahres ausgegangen sein muß – und dabei den Punkt ignorierte, das (ernsthafte) Fortschritte in der Fertigungstechnologie heutzutage einfach (viel) mehr Zeit brauchen als früher einmal.