1

nVidia verspricht 4 TFlops DP für Pascal, 7 TFlops DP für Volta

WCCF Tech zeigen einiges nVidia-Präsentationsmaterial von der Supercomputer-Konferenz SC15 – darunter auch eine Performance-Projektion zu den kommenden Grafikchip-Architekturen Pascal und Volta, betreffend jeweils deren Top-Modelle natürlich. Entsprechend des Präsentationsorts ging es dabei um die primär nur im GPGPU-Bereich interessante DoublePrecision-Performance (sowie die Speicherbandbreite) – wobei aus ersterer unter Umständen auch gewisse Rückschlüsse über die SinglePrecision-Performance zu ziehen sind. Danach wird nVidias Pascal-Architektur maximal 4 TFlops DoublePrecision-Rechenleistung mit 1 TB/sec Speicherbandbreite vereinen, die Volta-Architektur dann maximal 7 TFlops DoublePrecision-Rechenleistung mit 1,2 TB/sec Speicherbandbreite.

An diesen Angaben kann sich natürlich im Laufe der Entwicklung sowie der Finalisierung konkreter Produkte immer noch etwas ändern, aber insbesondere die Angaben zu Pascal dürften inzwischen doch dem ziemlich nahekommen, was nVidia dann auch wirklich präsentieren wird. Die 1 TB/sec Speicherbandbreite sind dabei recht einfach über ein 4096 Bit DDR HBM-Speicherinterface mit auf 1000 MHz laufendem HBM2-Speicher zu erklären – dies ergibt nämlich exakt diesen Wert. Die 4 TFlops DoublePrecision-Rechenleistung erscheinen hingegen als einfache Rechenaufgabe: Angenommen, nVidia fährt eine (sich aus dem Aufbau der Maxwell Shader-Einheiten bestenfalls ergebende) SP/DP-Rate von 2:1, dann kommen hierbei 8 TFlops SinglePrecision-Rechenleistung heraus. Dies kann man beispielsweise auf einem Grafikchip mit 4096 Shader-Einheiten auf ~980 MHz Taktrate erzielen – andere Variationen von Anzahl der Shader-Einheiten und Taktrate sind genauso möglich, aber dieser Aufbau erscheint als am wahrscheinlichsten.

Gegenüber dem vorhergehenden Profi-Chip in Form des GK210 ist dies dennoch ein großer Sprung, weil es da eine DoublePrecision-Rechenleistung von zwischen 2-3 TFlops (je nach anliegendem TurboModus) nur in einem Konstrukt mit gleich zwei GK210-Chips gibt (Tesla K80) gibt. Betrachtend nur SingleChip-Lösungen, steht die Tesla K40 auf GK110-Basis gar nur bei 1,43 bis 1,68 TFlops DoublePrecision-Rechenleistung. Beim zu sehenden großen Anstieg der DoublePrecision-Rechenleistung dürfte vor allem Früchte tragen, daß die vorhergehende Kepler-Architektur bestenfalls ein SP/DP-Verhältnis von 3:1 trug, von der Pascal-Architektur dann aber ein SP/DP-Verhältnis von 2:1 erwartet wird. Die Differenz ergibt sich allein schon durch den bei der Maxwell-Architektur veränderten Aufbau der Shader-Einheiten, ist also ziemlich automatisch auch für die Pascal-Architektur anzunehmen.

All dies muß allerdings recht wenig zu den Fähigkeiten der Pascal-Architektur im Gaming-Betrieb aussagen. Hierbei gilt als erstes zu beachten, daß Profi-Lösungen meistens deutlich niedrigere Taktraten als Gaming-Lösungen aufweisen – noch dazu, wo nVidia bezüglich seiner Pascal-Architektur nachgesagt wird, einen gewissen Taktratensprung auf standardmäßig Richtung 1300 MHz Chiptakt anzustreben. Dies wären immerhin ~33% mehr als bei den Profilösungen, würde die SinglePrecision-Rechenleistung auf 10,6 TFlops steigern und damit immerhin ein Plus um ~63% gegenüber der GeForce GTX Titan X aufstellen. Allerdings könnte es zweitens mit dem GP102 auch zu einem reinem Gamer-Grafikchip kommen, welcher keine DoublePrecision-Einheiten trägt und die frei werdende Chipfläche für mehr Shader-Einheiten nutzt (wie beim GM200). Angenommen, es sind damit 4608 Shader-Einheiten beim GP102-Chip machbar, würde dessen SinglePrecision-Rechenleistung auf knapp 12 TFlops hochgehen, was ein Plus von immerhin +83% gegenüber der GeForce GTX Titan X ergäbe.

Ob nVidia bei seinem kommenden Gaming-Spitzenprodukt so weit gehen will, steht natürlich noch nicht fest, sind dessen Anzahl der Shader-Einheiten und anliegende Taktraten schließlich noch unbekannt. Aber zumindest kann man sagen, daß aus der ziemlich wahrscheinlichen Aussage von 4096 Shader-Einheiten beim GM200-Chip noch nicht zu schlußfolgern ist, wie dann nVidias Gaming-Lösungen der Pascal-Architektur aussehen werden. Die Chance, daß nVidia hierbei erstmals Profi- und Gaming-Lösungen regelrecht auftrennt, ist ziemlich hoch – so daß alle Informationen den GM200-Chip betreffend möglicherweise gar nichts mit dem Gaming-Bereich zu tun haben werden.

Die nVidia-Projektion zur nachfolgenden Volta-Architektur in höchstwahrscheinlich schon der 10nm-Fertigung ist natürlich noch viel vager: nVidia dürfte hierbei eher angeben, was man gerne erreichen will – ob es die Technik dann mitmacht, steht auf einem anderen Blatt. Die Steigerung der DoublePrecision-Rechenleistung um +75% und damit nicht ganz eine Verdopplung ist zwar nett, zeigt aber auch darauf hin, daß nVidia diverse Schwierigkeiten bei der 10nm-Fertigung erwartet. Da die Taktraten ziemlich sicher kaum sinken werden, dürften es entweder Probleme bei der Flächenreduktion sein, welche in Folge keine doppelten Transistorenmengen mehr erlauben – oder zu stark steigende Kosten pro Chipfläche, welche dann einen maßvolleren Chip-Ansatz nahelegen. All zu viel sollte man derzeit hier noch nicht hereininterpretieren, dies kann sich alles noch maßgeblich daran verschieben, wie gut/schlecht der 10nm-Prozeß wirklich ausfällt. Bei der Speicherbandbreite von Volta bleibt nVidia hingegen sehr konservativ und geht augenscheinlich erneut von einem 4096 Bit DDR Speicherinterface mit HBM2-Speicher aus – nur eben mit von 1000 auf 1200 MHz erhöhter Taktrate.