25

Was nVidia mit der Maxwell-Architektur auch unter 28nm noch anfangen könnte

Ein sehr bemerkenswerter Punkt des GM107-Chips von GeForce GTX 750 & 750 Ti ist dessen hohe Effizienz. Zuerst fällt einem hierbei natürlich das exzellente Verhältnis von Performance zu Stromverbrauch ein, gut zu sehen an der GeForce GTX 750 Ti mit einem Performance-Index von 210% bei einem realen Spiele-Stromverbrauch von nur 62 Watt – keine andere Grafikkarte ihres Performance-Feld bringt ihre Leistung bei einem so niedrigen Stromverbrauch. Allerdings spielt dieser Punkt kaum eine Rolle bei der Frage, wie weit nVidia die Maxwell-Architektur unter der 28nm-Fertigun noch treiben könnte – limitierend wäre hierfür eher ein besonders hoher Stromverbrauch, nicht aber ein besonders niedriger Stromverbrauch.

Viel eher interessant für Grafikchip-Entwickler ist das Verhältnis von Performance zu dafür eingesetzter Chipfläche – weil dies eine wichtige Größe für die Fertigungskosten des Grafikchips ist. Es ist natürlich nicht die einzige Größe, welche die Fertigungkosten bestimmt – hier fallen noch das angesetzte Fertigungsverfahren, die konkret angepeilte Taktrate (höhere Taktraten bedeuten mehr Ausschuß) sowie vertragliche Feinheiten zwischen Chipentwickler und Auftragsfertiger mit hinein. Diese Punkte sind von außen jedoch nicht solide genug beurteilbar, während hingegen das Verhältnis von Performance zu dafür eingesetzter Chipfläche problemlos auf Basis der vorhandenen Daten ermittelbar ist. Die nachfolgende Tabelle listet hierzu die aktuellen Grafikchips auf – fehlend sind die jeweiligen Enthusiasten/Profi-Chips, da bei jenen die extra Transistoren für professionelle Zwecke die Effizienzrechnungen erheblich beeinflussen:

Perf.Index. Chipfläche Performance/mm²
GeForce GTX 750 Ti 210% 148mm²  (GM107) 1,48  Prozent Performance per mm² Chipfläche
GeForce GTX 650 115% 118mm²  (GK107) 0,97  Prozent Performance per mm² Chipfläche
GeForce GTX 660 250% 221mm²  (GK106) 1,13  Prozent Performance per mm² Chipfläche
GeForce GTX 770 380% 294mm²  (GK104) 1,29  Prozent Performance per mm² Chipfläche
Radeon R9 270X 290% 212mm²  (Pitcairn) 1,37  Prozent Performance per mm² Chipfläche
Radeon R7 260X 185% 160mm²  (Bonaire) 1,16  Prozent Performance per mm² Chipfläche
Radeon R7 250X 145% 123mm²  (Cape Verde) 1,18  Prozent Performance per mm² Chipfläche

Anhand der Tabelle sollten zwei Punkte gut zu sehen sein: Erstens sind kleinere Chips üblicherweise etwas ineffizienter als größere Chips – was sich leicht daran erklären läßt, daß gewisse fixe Einheiten wie ein PCI Express Interface, Video- und Soundlösungen immer nur einmal pro Chip benötigt werden bzw. bei größeren Chips nicht entsprechend größer sein müssen. Und zweitens ist der GM107-Chip der bislang klar effizienteste Grafikchip der 28nm-Generation, bringt also pro mm² Chipfläche die meiste Performance. Insbesondere der Abstand gegenüber den bisherigen 28nm-Chips von nVidia ist enorm.

Dabei steht der GM107-Chip irgendwo an der Grenze zwischen kleinen und mittelgroßen Grafikchips, wäre hier also sogar noch Potential für mehr Effizienz, wenn man das Modell des GM107-Chips auf die größeren Grafikchips der Maxwell-Architektur umlegen wollte. Hierbei könnten – selbst wenn weiterhin in der 28nm-Fertigung hergestellt – höchst effiziente Grafikchips herauskommen, wie die folgende Modell-Rechnung aufzeigt:

Chip Perf./mm² Technik Perf.-Index Chipfläche vergleichbar mit
GM107
(Maxwell Mainstream)
1,48 1 Raster-Engine, 640 Shader-Einheiten, 40 TMUs, 16 ROPs, 128 Bit DDR Interface bis zu 210% 148mm² -
Maxwell Performance 1,52 2 Raster-Engines, 1280 Shader-Einheiten, 80 TMUs, 32 ROPs, 256 Bit DDR Interface bis zu ~350% ~230mm² GK104 (294mm²)
Maxwell HighEnd 1,57 3 Raster-Engines, 2560 Shader-Einheiten, 160 TMUs, 48 ROPs, 384 Bit DDR Interface bis zu ~550% ~350mm² GK110 (561mm²)
Die kursiven Angaben dieser Tabellen beinhalten reine Annahmen.

Sofern nVidia die 28nm-Fertigung beibehalten wollte, sind mit der Maxwell-Architektur auf Basis der beim GM107-Chip gezeigten Effizienz problemlos neue 28nm-Grafikchips zu erstellen, welche die bisherigen Kepler-Grafikchips zu einer deutlich kleineren Chipfläche bei gleichbleibender Performance ablösen können – sprich, nVidias Fertigungskosten senken würden können. Besonders deutlich wäre dies bei einem (hypothetischem) HighEnd-Grafikchip nach GM107-Vorbild ausgeprägt: Jener könnte wohl problemlos die Performance des Enthusiasten/Profi-Chips GK110 erreichen, kommt aber (auch begünstigt durch die beim GK110 verbauten vielen Transistoren für professionelle Zwecke) auf eine deutlich kleinere Chipfläche von nur ~350mm² gegenüber immerhin 561mm² beim GK110.

Damit könnte nVidia die Maxwell-Architektur dazu nutzen, um eine weitere neue Grafikkarten-Generation unter der 28nm-Fertigung aufzulegen – nicht mit bemerkbar mehr Performance, aber zu geringeren Fertigungskosten. Allein ein Enthusiasten/Profi-Chip in Ablösung des GK110 wäre unter 28nm kaum noch zu fertigen bzw. würde wenn dann nur einen eher geringen Performance-Fortschritt gegenüber dem GK110 bringen. Für alle anderen Performance-Segmente bietet sich die Adaption der Maxwell-Architektur dagegen in jedem Fall an, der Effizienzgewinn bzw. die Einsparungen an Chipfläche sind trotz Weiterverwendung der 28nm-Fertigung enorm.

Allerdings wird nVidia natürlich nicht diesen Weg gehen, da die 20nm-Fertigung dieses Jahr spruchreif auch für große Grafikchips werden wird und es daher derzeit nicht mehr lohnt, noch neue 28nm-Projekte auf den Weg zu bringen. Man darf allerdings gespannt darauf sein, welchen zusätzlichen Effizienzvorteil die 20nm-Fertigung mit sich bringt: Kommt hier auch noch einmal eine große Einsparung an Chipfläche, dann vergrößern sich natürlich die Möglichkeiten der Grafikchip-Entwickler, noch mehr Hardware-Einheiten zu verbauen. Der kommenden 20nm-Generation ist daher durchaus hoffnungsvoll entgegenzublicken – mittels jener könnte sich ein wirklich beeindruckender Leistungsschub ergeben.

Nachtrag vom 30. März 2014

Von Techsoda kommt ein interessanter Artikel mit der nachdenkenswerten These, daß eventuell gar keine 20nm-Grafikchips anstehen, weil die bei GlobalFoundries und TSMC geplante 20nm-Fertigung keine HighPerformance-Chips zulassen würde – sondern nur eher kleinere mit maximal mittelgroße Chips, welche zudem auf niedrige Leistungsaufnahmen (wie für das Mobile-Segment) optimiert wären. Und in dieser Frage sind die Unterschiede in der Tat enorm groß: Mag sein, daß große SoCs derzeit auch auf eine Chipfläche von 100 bis maximal 150mm² kommen – aber trotzdem verbrauchen die gefertigten SoCs im Einsatz dann klar unterhalb von 5 Watt. Bei Grafikchips ist dies noch nicht einmal bei absoluten LowCost-Modellen mit kleinerer Chipfläche als 100mm² möglich – da fangen die Leistungsaufnahmen bei 30 Watt an und gehen mit wachsender Chipfläche dann schnell in Richtung von über 200 Watt.

SoCs und Grafikchips sind also völlig verschiedene Welten – und wurden bisher auch in unterschiedlichen Fertigungsverfahren hergestellt: Für die SoCs wurde in aller Regel ein LowPower-Prozeß verwendet, für die Grafikchips kam dann ein HighPerformance-Prozeß zum Einsatz. Problematischerweise fehlt diese Trennung bei der 20nm-Fertigung von GlobalFoundries und TSMC jedoch – angeblich, weil es keinen großen Unterschied ergeben würde. Ob dies so trifft, ist schwer zu ermittelt – in jedem Fall ist es der Aufhänger für Techsoda, darüber nachzudenken, ob die Grafikchip-Entwickler angesichts dieser mageren Aussichten die 20nm-Fertigung nicht links liegen lassen und gleich auf die 16nm-Fertigung warten. Jene 16nm-Fertigung wird – weil es real eigentlich 20nm mit 3D-Transistoren ist – nur ungefähr ein Jahr nach der 20nm-Fertigung antreten und sollte dann einen größeren Sprung (gegenüber 28nm) mit sich bringen.

Folgt man der These von Techsoda, ist damit jedoch vor Ende 2015 kaum mit Grafikchips in einer neuen Fertigungstechnologie zu rechnen – die Grafikchip-Entwickler müssten die 20nm-Technologie ein weiteres Jahr lang melken. Dabei muß dies nicht unbedingt zum Stillstand führen, nVidias Maxwell-Architektur ist auch unter der 28nm-Fertigung derart effizient, daß man notfalls eine komplette Maxwell-Riege in 28nm auflegen könnte. Nur an der Leistungsspitze wird es knapp, weil dort wegen der maximalen Größenbeschränkungen von Grafikchips (unterhalb von 600mm² Chipfläche) die neue Fertigungstechnologie am stärksten fehlt. Die Möglichkeit einer Performance-Verdopplung gibt es eben nur mit einer (durchschlagskräftigen) neuen Fertigungstechnologie. Andererseits ist das ganze derzeit eine reine These, mit sicherlich vernünftigen Argumenten – aber eben dennoch nur Überlegungen ohne einen konkreten Hinweis darauf, daß die Grafikchip-Entwickler die 20nm-Fertigung wirklich auslassen könnten.

Nachtrag vom 10. April 2014:

Die zum Ende des März geäußerte These über das Auslassen der 20nm-Fertigung seitens der Grafikchip-Entwickler verführt durchaus zum Gedanken, was speziell nVidia mit der Maxwell-Architektur noch innerhalb der 28nm-Fertigung möglich sein könnte. Lustigerweise hatten wir uns über diesen Punkt im Februar schon ein paar Gedanken gemacht – zwar ausgehend allein von der beim bisherigen Maxwell-Chip verbrauchten niedrigen Chipfläche, aber dies ist durchaus ein solider Ansatzpunkt (ein anderer guter Ansatzpunkt läge im Stromverbrauch). Schon "seinerzeit" ließ sich prophezeien, daß nVidia mit einem 28nm Maxwell-Chip von nur 350mm² Chipfläche die Performance von GeForce GTX 780 Ti & Titan Black wohl erreichen würde können – was bedeutet, daß sich das ganze produktionstechnisch sogar lohnen sollte, denn der bisher für diese Grafikkarten benutzte GK110-Chip ist immerhin 561mm² groß.

Auch der im Performance-Bereich breit eingesetzte GK104-Chip (294mm²) würde sich weitestgehend mit einem Maxwell-Chip unter 28nm ersetzen lassen: Der dabei herauskommende hypothetische Maxwell Performance-Grafikchip wäre mit 230mm² Chipfläche ausreichend genug kleiner, um wirtschaftlich für nVidia interessant zu sein. Die eigentliche Frage dieses Gedankenansatzes ist aber natürlich, ob der Markt weitere 28nm-Grafikchips und -karten – egal ob sie sehr effizient sind – überhaupt goutieren würde, wenn es an der Leistungsspitze keine neuen, schnelleren Grafikkarten gibt. Allerdings ist selbiges durchaus realisierbar – dann aber wahrscheinlich nur, wenn man die für professionelle Zwecke benötigten Transistoren wegläßt, sprich einen Enthusiasten-Grafikchip auflegt, welcher nicht mehr gut für Quadro- oder Tesla-Grafikkarte benutzbar ist.

Chip Perf./mm² Technik Perf.-Index Chipfläche vergleichbar mit
GM107
(Maxwell Mainstream)
1,48 1 Raster-Engine, 640 Shader-Einheiten, 40 TMUs, 16 ROPs, 128 Bit DDR Interface bis zu 210% 148mm² GK106 (221mm²)
Maxwell Performance 1,52 2 Raster-Engines, 1280 Shader-Einheiten, 80 TMUs, 32 ROPs, 256 Bit DDR Interface bis zu ~350% ~230mm² GK104 (294mm²)
Maxwell HighEnd 1,57 3 Raster-Engines, 2560 Shader-Einheiten, 160 TMUs, 48 ROPs, 384 Bit DDR Interface bis zu ~550% ~350mm² GK110 (561mm²)
Maxwell Enthusiast
(ohne Profi-Eignung)
1,60 4 Raster-Engines, 5120 Shader-Einheiten, 320 TMUs, 64 ROPs, 512 Bit DDR Interface bis zu ~850% ~530mm² -
Die kursiven Angaben dieser Tabellen beinhalten reine Annahmen.

Rechnet man dies hoch, läßt sich sehr viel mit der Maxwell-Architektur auch noch unter 28nm erreichen: Am Ende könnte ein Maxwell Enthusiasten-Grafikchip ohne Profi-Ballast auf eine Performance in der Nähe der DualChip-Grafikkarten Radeon R9 295X2 und GeForce GTX Titan Z kommen – bei ungefähr immerhin 60% Mehrperformance gegenüber einer GeForce GTX 780 Ti. Ob nVidia diesen Weg geht, ist aber natürlich extrem ungewiß, es handelt sich immerhin nur um eine reine Spekulation basierend auf einer unbewiesenen These. Aber es ist augenscheinlich mit der Effizienz der Maxwell-Architektur möglich, selbst unter der 28nm-Fertigung noch eine neue Grafikkarten-Generation aufzulegen, welche durch ihren erheblichen Performance-Sprung gegenüber den bisherigen Grafikkarten den Terminus "neue Generation" zu Recht tragen würde.