nVidia kündigt den Pascal-Chip GP100 an

Dienstag, 5. April 2016
 / von Leonidas
 

Auf der GPU Technology Conference (GTC) hat nVidia wie erwartet endlich etwas offizielles zur Pascal-Generation gesagt – im konkreten wurde der Top-Chip GP100 sowie eine erste Profi-Lösung darauf basierend in Form der "Tesla P100" Grafikkarte angekündigt. Wie erwartet geht es beim GP100-Chip zu allererst um den professionellen Einsatz, zu möglichen Verwendung im Gamer-Segment wurde nichts verlauten gelassen. Dabei besteht durchaus die Chance, das wir den GP100-Chip niemals oder nur vereinzelt im Gamer-Segment sehen, da der Chip vom Aufbau her sehr deutlich für das professionelle Segment entwickelt wurde: Auf 610mm² Chipfläche brachte man 15,3 Milliarden Transistoren in der 16nm-Fertigung von TSMC unter (Packdichte 25,1 Mill. Transistoren/mm², knapp das Doppelte gegenüber der 28nm-Fertigung), darunter auch ein 4096 Bit breites HBM2-Speicherinterface. In diese extrem hohe Transistoren-Anzahl hat nVidia dann allerdings "nur" 3840 Shader-Einheiten integrierte (3584 bei der Tesla P100 freigeschaltet), dies sind gerade einmal 25% mehr als beim GM200-Chip der Maxwell-Generation.

nVidia GP100

  • offiziell:  Pascal-Generation
  • sicher:  DirectX 12 Feature-Level 12_1
  • offiziell:  15,3 Milliarden Transistoren auf 610mm² Chipfläche
  • offiziell:  16nm-Fertigung von TSMC
  • offiziell:  6 Raster-Engines
  • offiziell:  60 Shader-Cluster (mit jeweils 64 Shader- und 4 Textureneinheiten)
  • offiziell:  insgesamt 3840 Shader- und 240 Textureneinheiten
  • offiziell:  4 MB Level2-Cache
  • offiziell:  4096 Bit HBM2-Speicherinterface
  • offiziell:  16 GB HBM2-Speicher
  • offiziell:  darauf basierende Profi-Lösung Tesla P100 mit Taktraten von 1328/1480/~700 MHz zu 300W TDP
  • offiziell:  Massenfertigung startend Anfang April 2016
  • offiziell:  Auslieferung an nVidia-Direktabnehmer im H2/2016, fertige OEM-Serversysteme ab Q1/2017

Das wird wie gesagt dem Profi-Ansatz des GP100-Chips geschuldet sein – nVidia hatte bekannterweise beim GM200-Chip diese Funktionalität komplett herausgeworfen. Zu nennen wäre hierbei zuerst das Feature der "Mixed Precision", womit der GP100-Chip ein DP/SP-Verhältnis von 1:2 bietet (GK110 & G210 der Kepler-Architektur: 1:3) – hinzu kommt eine "HalfPrecision" von 16 Bit Rechengenauigkeit, welche ein SP/HP-Verhältnis von ebenfalls 1:2 anbietet. Zum anderen operiert der GP100-Chip mit erstaunlich hohen Taktraten – gerade wenn man einrechnet, das Profi-Lösungen zumeist eher niedrige Taktraten anbieten: 1328 MHz Basetakt und 1480 MHz Boosttakt bei der Tesla P100 sind nicht von schlechten Eltern. Die Tesla P100 Profi-Lösung erreicht damit theoretische Rechenleistungen von 21,2 TFlops HalfPrecision, 10,6 TFlops SinglePrecision sowie 5,3 TFlops DoublePrecision. Dies sieht im Vergleich mit früheren Profi-Lösungen von nVidia schon ganz stattlich aus, die 1,68 TFlops DoublePrecision des GK210-Chips bei der Tesla K40 werden dabei sogar etwas mehr als verdreifacht:

HalfPrecision SinglePrecision DoublePrecision SP-Effizienz DP-Effizienz
Tesla M2090  (Fermi, GF110, 40nm, 225W, Mai 2011) 1,33 TFlops 1,33 TFlops 0,66 TFlops 5,9 GFlops/Watt 3,0 GFlops/Watt
Tesla K20X  (Kepler, GK110, 28nm, 235W, Nov. 2012) 3,93 TFlops 3,93 TFlops 1,31 TFlops 16,7 GFlops/Watt 5,6 GFlops/Watt
Tesla K40  (Kepler, GK110B, 28nm, 235W, Nov. 2013) 5,04 TFlops 5,04 TFlops 1,68 TFlops 21,4 GFlops/Watt 7,1 GFlops/Watt
Tesla M40  (Maxwell, GM200, 28nm, 250W, Nov. 2015) 6,84 TFlops 6,84 TFlops 0,21 TFlops 27,4 GFlops/Watt 0,9 GFlops/Watt
Tesla P100  (Pascal, GP100, 16nm, 300W, April 2016) 21,2 TFLops 10,6 TFlops 5,3 TFlops 35,4 GFlops/Watt 17,7 GFlops/Watt

Bei der SinglePrecision-Rechenleistung gibt es noch eine grobe Verdopplung gegenüber der Kepler-Generation, gegenüber der Maxwell-Generation ist der Unterschied mit allerdings +55% nicht gerade berauschend hoch für eine neue Grafikchip-Architektur auf neuem Fertigungsverfahren. Dies hängt an den vergleichsweise wenigen 3840 Shader-Einheiten des GP100-Chips, welche eben mit Profi-Funktionalität gefüllt sind. So hat nVidia auch die GP100 Shader-Cluster umgestaltet: Gab es bei den Fermi- und Kepler-Generationen noch 192 Shader-Einheiten samt 16 TMUs pro Shader-Cluster, waren es bei der Maxwell-Generation dann nur noch 128 Shader-Einheiten samt 8 TMUs pro Shader-Cluster. Bei der Pascal-Generation (zumindest beim GP100-Chip) sinkt das ganze dann auf 64 Shader-Einheiten samt 4 TMUs pro Shader-Cluster ab (im übrigen damit exakt wie bei AMDs GCN-Architektur).

nVidia GP100 Shader-Cluster
nVidia GP100 Shader-Cluster
nVidia GP100 Blockdiagramm
nVidia GP100 Blockdiagramm

Faktisch zerteilt nVidia die Shader-Cluster bei Pascal: Aus einem Shader-Cluster von Maxwell werden zwei bei Pascal. Dies hat Vorteile bei der Anbindung der Shader-Cluster, weil damit dann mehr Register vorhanden sind, in welchen sich mehr Befehle & Daten speichern lassen, welche die Auslastung der Rechenwerke erhöhen sollten. Das Verhältnis zwischen der Anzahl an Shader-Einheiten pro Textureneinheiten bleibt allerdings mit 16:1 gleich. Jenes hatte sich in den letzten Jahren immer mal wieder erhöht, da in heutiger Spielergrafik die Rechenleistung der Shader-Einheiten wichtiger ist als die Texturierleistung der TMUs – aber bei der Pascal-Architektur und selbst beim GP100-Chip beläßt es nVidia noch beim bisherigen Verhältnis. In diesem Punkt dürften die kleineren Pascal-Chips dann gleich sein, mit einer gewissen Wahrscheinlichkeit werden jene auch die kleineren Shader-Cluster mit nur 64 Shader-Einheiten pro Shader-Cluster übernehmen.

In anderen Punkten dürften die kleineren Pascal-Chips dann allerdings deutlich abweichen: So werden jenen die ganze Profi-Features maßgeblich fehlen, womit dann deutlich mehr Chipfläche für Shader-Einheiten zur Verfügung stehen wird. Dies könnte so weit gehen, das es für nVidia effizienter ist, einen kleineren GP102-Chip mit aber trotzdem mehr Shader-Einheiten zu erstellen, welcher dann für die Gamer-Topmodelle gedacht ist – anstatt den GP100-Chip im Gamer-Segment zu verwenden. Bislang wurde der GP102-Chip immer als kleinerer Chip gegenüber dem GP100 gedacht – dies mag von der Chipfläche her stimmen, aber bei der Anzahl der Shader-Einheiten ist aber eher mehr als vom GP100 her bekannt zu erwarten. Eine Beispielrechnung mit einer Chipfläche von 500mm² beim GP102-Chip ergibt durchaus erreichbare ~4500 Shader-Einheiten – womit der GP102-Chip dann für Gaming-Bedürfnisse ein sogar höheres Performancepotential hätte als der GP100-Chip:

GM200 GP100 GP102
bezogen auf: GeForce GTX 980 Ti mögliche Gamer-Lösung auf GP100-Basis (spekulativ "GeForce GTX Titan X2") derzeit rein spekulativ
Chipbasis nVidia GM200, 8 Mrd. Transistoren in 28nm auf 601mm² Chipfläche nVidia GP100, 15,3 Mrd. Transistoren in 16nm auf 610mm² Chipfläche nVidia GP102, spekulativ: ~12 Mrd. Transistoren in 16nm auf ~500mm² Chipfläche
Architektur Maxwell-Architektur 2.0, DirectX 12 Feature-Level 12_1 & PhysX Pascal-Architektur, DirectX 12 Feature-Level 12_1 & PhysX
Technik 6 Raster-Engines (mit verdoppelter Raster-Power), 2816 Shader-Einheiten, 176 TMUs, 96 ROPs, 384 Bit GDDR5-Interface, 3 MB Level2-Cache 6 Raster-Engines (mit verdoppelter Raster-Power?), 3840 Shader-Einheiten, 240 TMUs, 4096 Bit HBM2-Interface, 4 MB Level2-Cache spekulativ: ~4500 Shader-Einheiten, 384 Bit GDDR5X-Interface oder 4096 Bit HBM2-Interface
Taktraten 1000/1075/3500 MHz
(Ø-Chiptakt: 1114 MHz)
angenommen: ~1350/1500/700 MHz spekulativ: ~1350/1500/3500 MHz bzw. ~1350/1500/700 MHz
Speicherausbau 6 GB GDDR5 wahrscheinlich: 8/16 GB HBM2 spekulativ: 6/12 GB GDDR5X oder 8/16 GB HBM2
SP-Rechenleistung 6,27 TFlops hochgerechnet: 11,52 TFlops (+84%) hochgerechnet: 13,5 TFlops (+115%)
Speicherbandbreite 336 GB/sec hochgerechnet: 717 GB/sec (+113%) hochgerechnet: 672 GB/sec (GDDR5X) (+100%) bzw. 717 GB/sec (HBM2) (+113%)
4K Perf.Index 100% hochgerechnet: 160-190% hochgerechnet: 180-210%
Release 31. Mai 2015 möglicherweise: H1/2017 möglicherweise: Q4/2016 bis Q1/2017

Trotzdem ist das Performance-Potential des GP100-Chips auch im Gaming-Einsatz nicht schlecht mit +60-90% gegenüber einer GeForce GTX 980 Ti. Die Rechenleistung ist schließlich um (spekulativ) um +84% höher, die Speicherbandbreite steigt gar um +115%. Zusammen mit den Effizienzverbesserungen der Pascal-Architektur zugunsten einer besseren Chipauslastung ist damit ein sehr deutliches Performanceplus nahe an einer Performanceverdopplung gegenüber der Maxwell-Architektur durchaus machbar. Aber wie gesagt: Ein GP102-Chip wäre hierbei die elegantere Lösung, damit wäre noch mehr Gaming-Performance zu einer kleineren Chipfläche und damit einer höheren Wirtschaftlichkeit zugunsten von nVidia machbar. Die Frage ist nur, ob sich dann der GP100-Chip wirtschaftlich lohnt, wenn damit nur das stückzahlenmäßig (sehr) kleine professionelle Segment bedient wird.

Welches System nVidia hierbei letztlich wählt, bliebe aber noch abzuwarten – schließlich existiert zum GP102-Chip derzeit nicht mehr als ein einfacher Treiber-Eintrag. Sicher ist derzeit nur, daß das ganze kaum ein Thema des Jahres 2016 sein wird: Kommt der GP100 auch ins Gaming-Segment, wird dies erst im Jahr 2017 passieren, da nVidia dieses Jahr erst einmal nur Direktabnehmer für diverse Großprojekte im Supercomputer-Bereich bedient, die reguläre GP100-Auslieferung ist sogar erst für das erste Quartal 2017 geplant. Viel früher würden eventuelle Gamer-Grafikkarte auf GP100-Basis auch nicht erscheinen können. Entsprechende Lösungen auf GP102-Basis könnten vorher kommen, sind aber auch nicht vor Ende 2016 zu erwarten. Den Startschuß der Pascal-Architektur im Gaming-Segment wird sowieso der kleinere GP104-Chip geben, der auf ein Performance-Potential von GeForce GTX 980 Ti +20% geschätzt wird – und zu welchem nVidia auf der GTC16 keinen Ton ausgesagt hat.

Nachtrag vom 6. April 2016

Letztlich hat sich dann auch noch ein ganz ordentlicher Dieshot des GP100-Chips in unserem Forum eingefunden. Hinzu gab es die (unsicher, ob nicht vielleicht scherzhaft gemeinte) Aussage, das es kaputte GP100-Dies als Schlüsselanhänger für Teilnehmer der GTC16 gab – so etwas haben Chipentwickler in der Vergangenheit gern getan, aber eigentlich hätte es davon mehr Bilder im Netz geben müssen. Als wahrscheinlich wirklich nur scherzhaft wird dagegen allgemein die weitere Aussage gewertet, das (derzeit) nur 5 GP100-Dies auf einem Wafer mit 90 produzierten GP100-Chip funktionieren würden – diese Produktionausbeute von nur 5,6% wäre selbst für einen solchen Monsterchip unterirdisch schlecht. Das ganze ist allerdings trotzdem als Hinweis darauf zu verstehen, das die GP100-Fertigung derzeit wohl reichlich Ausschuß abwirft – und somit die verfügbaren GP100-Chips zum einen sehr teuer hergestellt werden und zum anderen noch weit weg von einer Fertigungsausbeute sind, welche große Liefermengen und damit einen Einsatz im Gaming-Segment erst möglich machen würde.

Hardware.fr (maschinelle Übersetzung ins Deutsche) weisen genau in diesem Punkt dann darauf hin, das nVidia auf der GTC16 allen Fragen zu Consumer-Lösungen auf Basis des GP100-Chips sehr augenscheinlich ausgewichen ist – sowie das auch "andere Quellen" davon ausgehen, das der GP100-Chip nicht im Consumer-Segment auftauchen wird. Eine einzelne Titan-Lösung auf GP00-Basis wäre laut Hardware.fr wohl noch denkbar – allerdings würde dies durchaus einen gewissen Bruch jener Ansetzung bedeuten, denn bislang gab es noch in keiner nVidia-Generation eine Titan-Lösung ohne chipgleiche Salvage-Lösungen mit GeForce-Namen zu kaufen. Die Tendenz, das es nVidia eher denn mit dem GP102-Chip für das Gamer-Segment versucht, gewinnt dadurch in jedem Fall an Fahrt – und wie schon dargelegt, kann selbst ein (etwas) kleinerer GP102-Chip mehr Gaming-Power mitbringen als der GP100-Chip, welcher einfach zu sehr auf HPC-Anforderungen ausgelegt ist.

Nachtrag vom 2. Juni 2016

Die PC Games Hardware hat erste GP100-Benchmarks ausgegraben – leider nur im Profi-Benchmark AmberGPU, welcher eher nur Aussagen zur Workstation-Performance (und natürlich nicht zur Spiele-Performance) liefert. Dafür waren aber auch reihenweise früherer Tesla-Lösungen sowie sogar GeForce GTX Titan X und 1080 mit im Testfeld, ergibt sich also ein guter Überblick zur RealWorld-Rechenleistung dieser Karten. Die FP64-Einheiten wurden hierbei augenscheinlich kaum bis gar nicht benutzt, ansonsten könnten GeForce GTX Titan X und 1080 nicht so gut mithalten. Bis auf die GeForce GTX 1080 erzielen alle Grafikkarten dabei ein über alle 11 Einzeltests gemitteltes Ergebnis, welches gut zu ihrer FP32-Rechenleistung passt – nur die GeForce GTX 1080 läuft bemerkbar darunter. Grund hierfür könnte zu einem die vergleichsweise geringe Speicherbandbreite der GeForce GTX 1080 sein (die Farbkompression dürfte unter Profi-Anwendungen kaum weiterhelfen), zum anderen könnte diee Karte unter der hohen Auslastung dieses Benchmarks durchaus zum stärkeren Drosseln des Chiptakts neigen. Da die GeForce GTX 1080 natürlich nicht dafür gebaut ist, um unter Profi-Benchmarks zu glänzen, ist dies jedoch nicht als Problempunkt anzusehen. Die GP100-basierte Tesla P100 macht ihren Job dagegen wie geplant: Für ~61% mehr SP32-Rechenleistung gegenüber der vorhergehenden Tesla M40 gibt es unter diesem Profi-Benchmark gute ~55% Mehrperformance.

Technik FP32-Rechenl. AmberGPU
Tesla P100 Pascal, GP100, 16nm, 300W 10,6 TFlops 100%
GeForce GTX 1080 Pascal, GP104, 16nm, 180W 8,67 TFlops 72,9%
GeForce GTX Titan X Maxwell, GM200, 28nm, 250W 6,55 TFlops 64,4%
Tesla M40 Maxwell, GM200, 28nm, 250W 6,84 TFlops 61,0%
Tesla K40 Kepler, GK110B, 28nm, 235W 5,04 TFlops 44,3%
Tesla K20 Kepler, GK110, 28nm, 235W 3,52 TFlops 32,3%