27

nVidias Turing auf ~676mm² Chipfläche ermöglicht 48% mehr Transistoren sowie 50-60% Mehrperformance gegenüber dem GP102-Chip

Gemäß einer Analyse der Lötstellen zum Turing-Entwicklerboard bei TechPowerUp dürfte der hier einzubringende Grafikchip grob 26x26mm groß sein – und damit auf eine Chipfläche von satten 676mm² kommen. Die reale Zahl kann davon noch einmal um ein gewisses Maß abweichen, aber ganz große Differenzen sind dann auch nicht mehr zu erwarten. Jene 676mm² Chipfläche sind natürlich erst einmal sehr "dick", mit so großen Grafikchips hatte man zuletzt im Gaming-Bereich nicht mehr zu tun – der GP102 der GeForce GTX 1080 Ti ist nur 471mm² groß, selbst der GM200 der GeForce GTX 980 Ti mit 601mm² sowie AMDs Fiji der Radeon R9 Nano/Fury Karten mit 596mm² fallen etwas kleiner aus. Andererseits ist dies wohl einfach der Preis, wenn man innerhalb der 12nm-Fertigung nochmals höher hinaus will – die gewissen Vorteile von TSMCs 12FFC zum vorherigen 16FF+ reichen da nicht aus, da muß man schon mit wirklich größerer Chipfläche herangehen. Die genannten 676mm² ergeben eine um +43% größere Chipfläche – auf gleicher Fertigung passen da (milchmädchenhaft gerechnet) +43% mehr Transistoren ein, unter Einrechnung der (nominellen) Vorteile der 12nm-Fertigung könnten es sogar bis zu +79% mehr Transistoren sein.

Allerdings ist an dieser Stelle einzurechnen, das der GV100-Chip aus der Volta-Generation, welcher ja ebenfalls in der 12nm-Fertigung daherkommt, gemäß derselben Milchmädchen-Rechnung schon etwas zu groß ausfällt. Der 12nm-Flächenvorteil scheint also seitens TSMC etwas übertrieben angegeben zu sein, zwischen den nVidia-Chips GP100 (15,3 Mrd. Transistoren auf 610mm² Chipfläche in 16FF+) und GV100 (21,1 Mrd. Transistoren auf 815mm² Chipfläche in 12FFC) liegt nominell nur ein durch das bessere Fertigungsverfahren erzeugter Flächenvorteil von gerade einmal -3%. Für den besprochenen Turing-Chip bedeutet dies, das wahrscheinlich "nur" bis zu +48% mehr Transistoren (gegenüber dem GP102-Chip) in diese Chipfläche hineinpassen – vielleicht auch noch geringfügig mehr, wenn sich jener (vermutliche) Gaming-Chip näher an die TSMC-Vorgaben zum 12nm-Prozeß hält. Damit wäre sicherlich schon eine sehr leistungsstarke Lösung zu machen, trotz wie gesagt der 12nm-Fertigung. Da das Speicherinterface auf 384 Bit GDDR6 festzuliegen scheint und andere Chipteile nicht unbedingt 1:1 nach oben skaliert werden müssen, wären damit bestenfalls +60% mehr Shader-Einheiten gegenüber dem GP102-Chip (max. 3584 Shader-Einheiten) denkbar – sprich, es könnte somit (bei einer optimistischen Prognose) sogar in Richtung von 6000 Shader-Einheiten bei diesem Enthusiasten-Chip der Turing-Generation gehen.

Denn Shader-Einheiten machen üblicherweise nur die Hälfte der Chipfläche aus, ergo braucht man für 60% mehr Shader-Einheiten auch keine um gleich 60% größere Chipfläche – bei reiner Steigerung der Anzahl der Shader-Einheiten würde hierfür vielmehr eine (grob) um 30% größere Chipfläche ausreichend sein. Ganz ohne die Verbreiterung anderer Einheiten wird es natürlich nicht gehen können, immerhin muß auch die Auslastung dieser vielen Shader-Einheiten sichergestellt werden bzw. dürfen keine Engpässe an anderer Stelle entstehen. Zudem könnte nVidia natürlich auch gänzlich anderen Hardware-Einheiten den Vorzug bei der zu verbratenden Chipfläche geben – beispielsweise dedizierten RayTracing-Einheiten. Doch RayTracing steckt derzeit noch zu stark in den Kinderschuhen und sollte daher auch nur in einem sehr begrenztem Maßstab Chipfläche kosten dürfen – jede für RayTracing verwendete Einheit könnte schließlich ein weiterer Shader-Cluster sein, welcher dann unter allen Anwendungen seine Vorteile zeigen kann. Alternativ könnte nVidia einige der Mehrtransistoren auch dafür verwenden, noch höhere Taktrate zu erzielen – dies kommt bezüglich des Transistorenbudgets jeweils aufs gleiche hinaus.

Einer besonders hohen Anzahl von Shader-Einheiten oder allgemein dem Verbau von besonders vielen Transistoren steht allerdings ganz grundsätzlich das Problem des damit erzeugten höheren Stromverbrauchs entgegen: Die 12nm-Fertigung spart diesbezüglich nur mittelmäßig ein (nominell -25% Stromverbrauch zwischen 12FFC und 16FF+), die seitens nVidia gern genannten erheblichen Energieeffizienz-Vorteile des GV100-Chips ergeben sich allerdings auch nur auf dessen handzahmen Taktraten. Auf Gaming-typischen Taktraten würde dann auch der GV100-Chip seine TDP von maximal 300 Watt umgehend reißen – was sich nVidia jedoch kaum leisten kann, weder im HPC- noch im Gaming-Segment sind TDPs oberhalb 300 Watt üblich bzw. am Markt zu vertreten. An dieser Stelle kommt dann sicherlich das veränderte Boost-Verhalten der Turing-Generation ins Spiel, welches trotz nominell hoher Taktraten den Stromverbrauch (etwas) herunterzudrücken in der Lage sein sollte. Nichtsdestotrotz sehen wir den kommenden Turing-Enthusiasten-Chip als primär von seinem Stromverbrauch her limitiert, die enorme Chipfläche täuscht etwas über diese viel größere Hürde hinweg.

Denn immerhin verbraucht eine GP102-basierte GeForce GTX 1080 Ti auch schon ihre 236 Watt – da ist kein wirklich großer Spielraum für Mehrperformance unter der 12nm-Fertigung zu sehen, sofern man die übliche 250-Watt-Marke nicht reißen wollte. Dieselbe Karte nur unter der 12nm-Fertigung aufgelegt würde (wiederum milchmädchenhaft gerechnet) 177 Watt verbrauchen – zumindest sofern man der TSMC-Angabe zur 12nm-Fertigung vertrauen wollte. In der Praxis wird in aller Regel sowieso eher ein Mix aus höherer Taktrate und niedrigerem Verbrauch (pro Transistor) angesetzt, kommt der Maximalwert kaum zum tragen. Rechnet man also besser mit einem um -10% geringeren Stromverbrauch durch die 12nm-Fertigung, dann würde dieselbe GeForce GTX 1080 Ti schon auf 212 Watt Stromverbrauch unter der 12nm-Fertigung kommen. Gegenüber der Marke von 250 Watt TDP würde sich somit ein Spielraum von nur +18% ergeben – klar zu wenig für die genannten +48% mehr Transistoren, damit könnte man diese Transistorenmenge nicht ausnutzen (oder aber müsste die Taktraten herunterregeln, was auf das gleiche herauskommt). Aber möglicherweise geht nVidia in diesem Ausnahmefall daher auch auf bis zu 300 Watt TDP hinauf, damit würde sich der Stromverbrauchs-Spielraum auf immerhin +41% erhöhen.

Nur in diesem Fall würden wir es als möglich ansehen, die sich abzeichnende große Chipfläche des Turing-Enthusiasten-Chips auch wirklich ausnutzen zu können. Sofern größere Chipfläche und entsprechender Spielraum beim Stromverbrauch jedoch tatsächlich in zueinander ähnlicher Höhe vorhanden sind, macht das ganze dann wirklich Sinn – und kommt auch entsprechendes an Mehrperformance heraus. Eine potentielle GeForce GTX 1180 Ti könnte angesichts dieser Daten durchaus auf grob 50-60% Mehrperformance gegenüber der GeForce GTX 1080 Ti hoffen – eventuell sogar etwas mehr, sofern nVidia die Zeit seit der (wie bekannt zwei Jahre alten) Pascal-Generation auch noch für ein paar Architektur-Verbesserungen genutzt hat. Zwischen dem GM200-Chip der Maxwell-Generation und dem GP102-Chip der Pascal-Generation hat nVidia immerhin nur +50% mehr Transistoren benötigt, um auf ein Performanceplus von +78% zu kommen (Vergleich Titan X/Maxwell gegen Titan Xp). Zugegebenermaßen stand seinerzeit mit dem Wechsel von der 28nm- auf die 16nm-Fertigung auch ein erheblicher Energieeffizienz-Vorteil zur Verfügung, was derzeit wie gesagt nicht der Fall ist – deswegen wird es beim Turing-Enthusiasten-Chips kaum ein ähnlich hohes Performanceplus geben können, 50-60% sind eine grundsolide Schätzung.

GP100 GP102 GV100 "GT102"
Generation Pascal Pascal Volta Turing
Chipdaten 15,3 Mrd. Transistoren auf 610mm² Chipfläche 12 Mrd. Transistoren auf 471mm² Chipfläche 21,1 Mrd. Transistoren auf 815mm² Chipfläche vmtl. ~18 Mrd. Transistoren auf ~676mm² Chipfläche
Fertigung TSMC 16FF+ TSMC 16FF+ TSMC 12FFC TSMC 12FFC
Technik 6 Raster-Engines, 60 Shader-Cluster, 4096 Bit HBM2-Speicherinterface 6 Raster-Engines, 60 Shader-Cluster, 384 Bit GDDR5X-Speicherinterface 6 Raster-Engines, 84 Shader-Cluster, 4096 Bit HBM2-Speicherinterface vmtl. 6 Raster-Engines, ~84-96 Shader-Cluster, 384 Bit GDDR6-Speicherinterface
Grafikkarten rein HPC GeForce GTX 1080 Ti, Titan X & Titan Xp Titan V vmtl. GeForce GTX 1180 Ti
TDPs bis 300 Watt (HPC) bis 250 Watt (Gaming) bis 300 Watt (HPC) vmtl. bis 300 Watt
Alle Angaben zur Turing-Hardware sind natürlich derzeit ungesichert.