Radeon HD 9970: 2560 SE in 28nm - oder 3072 bis 4096 SE in 20nm?

Sonntag, 14. Juli 2013
 / von Leonidas
 

Viel diskutiert wird in den entsprechenden Foren derzeit die Frage, wohin die kommende Radeon HD 9970 im Oktober wohl gehen wird: Dabei hat sich "28nm-Fertigung oder 20nm-Fertigung" als der entscheidende Punkt herauskristallisiert, welcher darüber bestimmt, wie schnell die Radeon HD 9970 letztlich werden kann – sprich, ob man unter 28nm vielleicht knapp das Performance-Niveau der GeForce GTX Titan erreicht oder unter 20nm die GeForce GTX Titan glatt versägt. Eine sichere Aussage, in welche Richtung es geht, kann derzeit (außerhalb Eingeweihten) niemand treffen – aber es ergeben sich zumindest zwei neue Punkte, welche in diesem Diskussionsfeld Beachtung finden sollten:

  1. Es gibt inzwischen klare Aussagen dazu, daß die Massenfertigung von 20nm-Chips bei Auftragsfertiger TSMC erst zum Ende des ersten Quartals 2014 oder erst im zweiten Quartal 2014 starten wird. Dies wurde den Investoren so seitens TSMC mitgeteilt, dürfte also halbwegs zur Realität passen oder eventuell sogar noch etwas schöngefärbt sein. Theoretisch müsste man damit alle 20nm-Ideen begraben – mit einem kleinen Ausweg: Für einen einzelnen echten HighEnd-Chip in 20nm benötigen AMD & TSMC keine laufenden Massenfertigung, denn für die geringen für einen solchen Chip benötigten Stückzahlen reicht auch eine Riskproduktion aus. Dies beißt sich dann auch nicht mit dem Anspruch von Apple auf die ersten Kontingente von TSMCs 20nm-Fertigung, denn Apple kann mit ein paar tausend Wafern nicht viel anfangen, Apple braucht zwingend die Massenfertigung.
  2. Die SweClockers wollen wohl AMD-Unterlagen gesehen haben, daß AMD den R1000/Tahiti-Chip der Radeon HD 7900 Serie bis mindestens Mitte 2014 im Lineup haben wird – was wohl bedeutet, daß dieser nicht nur nebenbeiher läuft, sondern in seinem Preissegment als führender AMD-Chip steht. Dies deutet erst einmal ganz klar darauf hin, daß die neue AMD-Generation zum Jahresende nicht sofort ein vollständiges neues AMD-Portfolio ergeben wird, daß es eventuell nur einen einzelnen neuen Chip gibt. Und dieser Chip dürfte dann ernsthaftes HighEnd klar über R1000/Tahiti sein, da sich ansonsten das Weiterführen der R1000/Tahiti-basierten Grafikkarten nicht wirklich lohnen würde.

In der Frage, ob AMD nun noch einen 28nm-Chip bringt oder gleich einen 20nm-Chip, sind wir damit leider natürlich kein Stück vorangekommen – was, wie vorab schon erwähnt, derzeit aber einfach noch nicht (sicher) auflösbar ist. Die Chancen stehen natürlich eher auf einen 28nm-Chip, da die TSMC-Fertigung von 20nm-Chips schon dieses Jahr eher vakant ist und vor allem das vermeldete 12-Layer-Boarddesign der Radeon HD 9970 auf einen sehr komplexen bzw. stromfressenden Chip hindeutet, was eher auf ein letztes Aufbäumen unter der 28nm-Fertigung (mit entsprechend hohem Strombedarf) als denn einen ersten 20nm-Chip hindeutet. Gegen letztere Variante spricht auch, daß AMD bekannterweise lieber nur mittelprächtig große HighEnd-Chips designt – und speziell unter einer kleineren Fertigungstechnologie dürfte damit normalerweise kein 12-Layer-Boarddesign vonnöten sein, welches auf eine reale Stromaufnahme von 250 Watt und mehr hindeutet.

Folgen wir einmal dem Pfad eines Refresh-Chips unter 28nm, dann knallt der Chipdesigner natürlich schnell an nicht überwindbare Rahmenbedingungen: AMD will die Chips nichts zu groß werden lassen, ein 500mm²-Monster dürfte es also kaum geben. Genauso geht der Strombedarf bei immer größeren Chips oder/und mehr Takt schnell durch die Decke, die Radeon HD 7970 "GHz Edition" liegt schon bei satten 235 Watt realem Verbrauch unter Spielen. Trotzdem kommen AMD dann zwei Punkte entgegen, welche die Chipfläche und damit den Stromverbrauch eines Refresh-Chips unter 28nm etwas zügeln können:

Erstens kann man speziell bei einem Refresh zu R1000/Tahiti ziemlich viel herausholen durch eine platte Verbesserung des Frontends – die bisher bei AMD maximal verbauten zwei Raster-Engines sind zu wenig für die hohe Performance dieser Chips, nVidia geht in dieser Performance-Klasse gleich mit vier Raster-Engines heran. Ein Refresh zu R1000/Tahiti könnte also drei oder vier Raster-Engines tragen oder/und eine andersweitige Verbesserung des Frontends beinhalten – wahrscheinlich sogar ohne daß dies viel mehr an Chipfläche kostet. Die Auslastung des Grafikchips würde allerdings klar steigen und man könnte sogar unter derselben Anzahl an Shader-Einheiten in Richtung 5-15 Prozent Performance (je nach Content) herausholen. Diese sehr effektive (und damit zu erwartende) Maßnahme kostet wie gesagt kaum Chipfläche, durch die verbesserte Auslastung steigt allerdings der Stromverbrauch an.

Zweitens kann man bei einem grundsätzlichen Neudesign überall kleine Verbesserungen und Optimierungen des reinen Halbleiters ansetzen – sprich, nicht auf die Grafikchip-Architektur bezogen, sondern auf das reale Chipdesign. Alle möglichen Fülltransistoren, welche man anno 2011 für den R1000/Tahiti als ersten 28nm-Chip noch ansetzen musste, können wahrscheinlich raus, insgesamt würde man auch sicherlich wieder die Packdichte der Transistoren etwas steigern können – so wie dies den Chipdesignern noch bei jedem neuen Chip gelungen ist. Gerade der R1000/Tahiti ist diesbezüglich wenig effektiv, er bringt nur 11,8 Millionen Transistoren pro mm² Chipfläche auf die Wage – wenn AMD dies bei einem R1000/Tahiti-Refresh auf die 13,2 Millionen Transistoren pro mm² Chipfläche des Pitcairn-Chips hinaufschrauben könnte, würde man die Chipfläche um glatt 12% reduzieren können. Selbst wenn es nicht so viel wird, von einem R1000/Tahiti-Refresh kann man immer ein paar Prozente mehr Packdichte erwarten, was die Chipfläche nicht ausufern läßt und wahrscheinlich weitestgehend neutral beim Stromverbrauch ist.

Was damit möglich wäre, ist ziemlich einfach zu skizzieren: 2560 bis 2688 Shader-Einheiten samt einem verbesserten Frontend und diversen Architektur-Verbesserungen (GCN 2.0, sollte allerdings kaum Transistoren kosten) passen selbst in der 28nm-Fertigung noch in 420mm² bis 440mm² Chipfläche hinein. Bei angenommen 1 GHz Chiptakt wird damit sicherlich ein realer Stromverbrauch von 250 Watt erreicht, was wiederum das genannte 12-Layer-Boarddesign rechtfertigen würde. Von der Performance her sind damit durchaus 30% Mehrperformance gegenüber der Radeon HD 7970 "GHz Edition" zu erreichen – was in jedem Fall ins Feld der GeForce GTX Titan gehen würde und jene bei einem idealen Verlauf sogar (leicht) schlagen könnte.

Radeon HD 7970 "GHz Edition" Radeon HD 9970
(28nm, spekulativ)
GeForce GTX Titan GeForce GTX Titan Ultra
Chipbasis AMD R1000/Tahiti, 4,3 Mrd. Transistoren in 28nm auf 365mm² Chipfläche angenommen AMD Hawaii, 5,3-5,5 Mrd. Transistoren in 28nm auf 420-440mm² Chipfläche nVidia GK110, 7,1 Mrd. Transistoren in 28nm auf 561mm² Chipfläche
Architektur GCN 1.0, DirectX 11.1 höchstwahrscheinlich GCN 2.0, DirectX 11.2 Kepler, DirectX 11.0
Technik 2 Raster-Engines, 2048 Shader-Einheiten, 128 TMUs, 32 ROPs, 384 Bit DDR Interface möglicherweise 3-4 Raster-Engines, 2560-2688 Shader-Einheiten, 160-168 TMUs, 32-48 ROPs, 384 Bit DDR Interface 5 Raster Engines, 2688 Shader-Einheiten, 224 TMUs, 48 ROPs, 384 Bit DDR Speicherinterface höchstwahrscheinlich 5 Raster Engines, 2880 Shader-Einheiten, 240 TMUs, 48 ROPs, 384 Bit DDR Speicherinterface
Taktraten 1000/1050/3000 MHz angenommen 1000/3500 MHz 837/876/3000 MHz angenommen ~950/3400 MHz
Spieleverbrauch 235W geschätzt 250-280W 206W geschätzt 230-240W
3DC Perf.Index
(19x10 4xAA)
390% geschätzt 470-510% 480% geschätzt 530-550%
Preislage 350-390 Euro unsicher, je nach realer Performance 880-910 Euro wahrscheinlicher Einstiegspreis 900-1000 Euro bei gleichzeitiger Preissenkung der bisherigen Titan-Karten
Release 22. Dezember 2011 Oktober 2013 21. Februar 2013 wahrscheinlich kurz nach der Radeon HD 9970

Gegen einen solchen Chip – unter maximaler Ausnutzung der Möglichkeiten der 28nm-Fertigung – sprich, daß AMD wohlbewußt ist, daß nVidia einfach mit einer GeForce GTX Titan Ultra kontern würde. nVidia hat derzeit bei den HighEnd-Chips das klar bessere Performance/Stromverbrauchs-Verhältnis und damit die zugkräftigeren Möglichkeiten an der Hand, jeweils noch einmal nachschieben zu können. Notfalls zieht man eine GeForce GTX Titan Ultra eben auf 250 Watt Verbrauch oder mehr hoch, in jedem Fall hat man hier mehr Spielraum als AMD und wird einen R1000/Tahiti-Refresh unter 28nm immer kontern können. Andererseits – wenn AMD derzeit wirklich nur die 28nm-Fertigung zur Verfügung steht, dann bleibt AMD kaum ein anderer Weg übrig.

Als ziemlich sicher darf hingegen gelten, daß alle früheren Gerüchte über einen R1000/Tahiti-Refresh noch im Rahmen der "Sea Islands" Generation (welche eigentlich als Southern-Islands-Refresh geplant war) und mit nur 2304 Shader-Einheiten nicht passend sind. In dieser oder ähnlicher Form war der R1000/Tahiti-Refresh wohl einmal für den Jahreswechsel 2012/2013 geplant, aufgrund der das R1000/Tahiti-Design schon überaus stark ausreizenden Radeon HD 7970 "GHz Edition" hat AMD jedoch – zu Recht – einen zu geringen Performance-Sprung in dieser ursprünglich geplanten Refresh-Generation gesehen und jene letztlich bis auf einzelne Teile (Chips Bonaire für das Mainstream-Segment und Oland/Mars für das LowCost-Segment) gestrichen. Unterhalb von 2560 Shader-Einheiten wird ein 28nm-Refresh wohl nicht antreten – aufgrund der limitierten Möglichkeiten von 28nm aber eben auch nicht mit wesentlich mehr (maximal wohl 2688 Shader-Einheiten).

Deutlich mehr an Hardware-Einheiten geht jedoch nur dann, wenn der R1000/Tahiti-Nachfolger wider aller derzeitiger Chancen doch schon ein erster 20nm-Chip werden würde. Hierbei steht erst einmal der Punkt an, daß auch von der 20nm-Fertigung bei TSMC wieder ein nahezu hundertprozentiger Flächenvorteil zu erwarten ist, welchen man also mit einer Einheiten-Verdoppelung zur gleichen Chipfläche ausnutzen kann. In diesem Idealfall kann man den R1000/Tahiti-Nachfolger also durchaus mit vielleicht 4 Raster-Engines samt 4096 Shader-Einheiten skizzieren – ob AMD das Speicherinterface aufbohrt, wird man sehen müssen, aufgrund der derzeit verfügbaren sehr schnellen GDDR5-Speicher scheint dies trotz der vielen Shader-Einheiten nicht einmal zwingend notwendig zu sein.

Allerdings ist der Vorteil beim Stromverbrauch der 20nm-Fertigung wohl weit weniger großartig als bei früheren neuen Fertigungstechnologien – was bedeutet, daß ein gleich großer 20nm-Chip wie R1000/Tahiti (365mm²) mit etwa gleichem Takt dann deutlich mehr Strom verbrauchen würde, konkret aufgrund der vorliegenden Information zur 20nm-Fertigung gleich ca. 50% mehr. Da dies dann schnell in ungesunde Bereiche von über 300 Watt hineingehen würde, müsste AMD als Gegenmaßnahmen entweder den Chiptakt reduzieren (lohnt nur in Maßen, kaum niedriger als 800 MHz) oder halt weniger Transistoren verbauen.

Letzteres bedeutet dann aber auch wieder, daß keine (der ansonsten zwischen zwei Fertigungstechnologien üblichen) Verdopplung der Anzahl der Hardware-Einheiten mehr möglich wäre. Da wir uns hier allerdings schon deutlichst im Feld starker Spekulationen bewegen, kann man diesen Punkt keinesfalls beschwören – es wäre möglich, daß AMD unter 20nm keine Hardware-Verdoppelung hinbekommt, es muß aber keineswegs so sein. Wenn im schlimmsten Fall der Verbrauch eines 20nm-Chips bei einer Einheiten-Verdoppelung um 50% ansteigt und man dann als Gegenmaßnahme allein die Einheiten-Anzahl reduziert, um auf (angenommen) maximal 20% mehr Stromverbrauch zu kommen, würde grob ein Chip mit 3-4 Raster-Engines samt 3072 Shader-Einheiten herauskommen.

In diesem Feld bewegen sich dann derzeit die Annahmen zu einem ersten 20nm-Grafikchip von AMD: 3072 bis 4096 Shader-Einheiten, wobei der Verbrauch trotz der 20nm-Fertigung durchaus trotzdem nahe der 250 Watt gehen kann und sich somit das vorgenannte 12-Layer-Boarddesign vielleicht sogar rechtfertigen könnte. Genauer läßt sich dies derzeit noch nicht sagen, da sich vor dem Vorliegen eines ersten 20nm-Grafikchips nichts über real erzielbaren Vorteile der 20nm-Fertigung festmachen läßt. Die einzige klare Aussage ist: Bis maximal 2688 Shader-Einheiten würde es wohl noch in der 28nm-Fertigung gehen – während ein 20nm-Chip wohl mindestens mit 3072 Shader-Einheiten und eher mehr antreten wird.

Radeon HD 7970 "GHz Edition" Radeon HD 9970
(20nm, niedrige Spekulation)
Radeon HD 9970
(20nm, hohe Spekulation)
GeForce GTX Titan Ultra
Chipbasis AMD R1000/Tahiti, 4,3 Mrd. Transistoren in 28nm auf 365mm² Chipfläche angenommen AMD Hawaii, grob 6,5 Mrd. Transistoren in 20nm auf grob 300mm² Chipfläche angenommen AMD Hawaii, grob 8 Mrd. Transistoren in 20nm auf grob 370mm² Chipfläche nVidia GK110, 7,1 Mrd. Transistoren in 28nm auf 561mm² Chipfläche
Architektur GCN 1.0, DirectX 11.1 höchstwahrscheinlich GCN 2.0, DirectX 11.2 Kepler, DirectX 11.0
Technik 2 Raster-Engines, 2048 Shader-Einheiten, 128 TMUs, 32 ROPs, 384 Bit DDR Interface angenommen 3-4 Raster-Engines, 3072 Shader-Einheiten, 192 TMUs, 32-48 ROPs, 384 Bit DDR Interface angenommen 4 Raster-Engines, 4096 Shader-Einheiten, 256 TMUs, 48-64 ROPs, 384-512 Bit DDR Interface höchstwahrscheinlich 5 Raster Engines, 2880 Shader-Einheiten, 240 TMUs, 48 ROPs, 384 Bit DDR Speicherinterface
Taktraten 1000/1050/3000 MHz keine halbwegs sichere Annahme treffbar angenommen ~950/3400 MHz
Spieleverbrauch 235W keine halbwegs sichere Annahme treffbar geschätzt 230-240W
3DC Perf.Index
(19x10 4xAA)
390% angenommen 550-600% angenommen 700-750% geschätzt 530-550%
Preislage 350-390 Euro unsicher, je nach realer Performance wahrscheinlicher Einstiegspreis 900-1000 Euro bei gleichzeitiger Preissenkung der bisherigen Titan-Karten
Release 22. Dezember 2011 Oktober 2013 wahrscheinlich kurz nach der Radeon HD 9970

Mittels eines 20nm-Grafikchips in Ablösung des R1000/Tahiti mit 3072 bis 4096 Shader-Einheiten hätte AMD natürlich keine Probleme, mit der GeForce GTX Titan oder selbst einem Titan-Refresh in Form der GeForce GTX Titan Ultra zu konkurrieren. Selbst mit der kleineren Variante auf nur 3072 Shader-Einheiten sind eingerechnet des größeren Frontends und der Effizienzverbesserungen der GCN 2.0 Architektur sicherlich 50% Mehrperformance drin, bei der größeren Variante mit 4096 Shader-Einheiten sind auch 90% Mehrperformance möglich. Selbst die kleinere Variante würde damit eine GeForce GTX Titan Ultra recht problemlos ausstechen – nVidia müsste selber mit eigenen 20nm-Grafikchips kommen, um einem R1000/Tahiti-Nachfolger in 20nm etwas entgegensetzen zu können.

Die vorstehende genannte Meldung, daß der R1000/Tahiti-Chip bzw. darauf basierende Grafikkarten noch bis mindestens Mitte 2014 weiterleben werden, passt zudem recht gut zu einem R1000/Tahiti-Nachfolger in 20nm mit einem Performancepotential von 50% bis 90% Mehrleistung: Angenommen, AMD kann vorerst nur diesen einen 20nm-Chip herstellen (weil die 20nm-Massenproduktion später startet bzw. anfänglich primär an Apple geht), dann benötigt AMD den R1000/Tahiti-Chip noch für einige Monate, da dessen 20nm-Nachfolger in einem gänzlich anderem Performancefeld spielt und gar nicht soweit abgespeckt werden kann, um alle R1000/Tahiti-basierenden Grafikkarten zu ersetzen. AMD würde in diesem Fall schlicht zuerst den R1000/Tahiti-Nachfolger in der 20nm-Riskfertigung schon dieses Jahr starten, das restliche 20nm-Portfolio aber erst nach Erreichen der stabilen 20nm-Massenfertigung zur Mitte des Jahres 2014 auflegen.

Betrachtend diese zwei großen Möglichkeiten ist es sicherlich keine Frage, was AMD lieber tun würde – natürlich würde der 20nm-Chip dem eigenen Grafikchip-Geschäft viel mehr gut tun als ein 28nm-Refresh, den nVidia problemlos aus dem vorhandenem Portfolio kontern könnte. Was AMD letztlich an den Start bringt, ist somit eher nur eine Frage, was denn technologisch verfügbar ist – sprich, ob man dieses Jahr wirklich schon einen 20nm-Grafikchip in der Riskfertigung von TSMC herstellen lassen kann. Ob die 20nm-Massenfertigung wirklich erst Mitte 2014 verfügbar wird, muß dafür nicht stören – die kleineren Chips des Portfolios lassen sich schließlich allesamt auch in 28nm herstellen, nur für Chips mit wirklicher Mehrleistung wird zwingend die 20nm-Fertigung benötigt.

Angesichts der gar nicht einmal so großartigen Vorteile der 20nm-Fertigung von TSMC sowie des natürlich trotzdem vorhandenen Alleinstellungsmerkmals von TSMC als erster 20nm-Hersteller (samt der damit verbundenen Preisaufschläge) könnten die beiden Grafikchip-Entwickler in dieser Generation (und nachfolgenden) vielleicht gar nicht einmal darauf erpicht sein, unbedingt so schnell wie möglich das komplette Grafikchip-Portfolio auf die neue Fertigung umzustellen. Vielmehr ist es durchaus möglich, daß wir zukünftig erleben, daß immer zuerst nur die HighEnd-Chips in einer neuen Fertigung daherkommen – weil nur in diesem Segment die neue Fertigung wirklich benötigt wird – und daß die Chips der anderen Segmente erst mit einigem zeitlichen Abstand zur neuen Fertigung umschwenken, wenn die ersten Anlauf-Schwierigkeiten überwunden sind und vor allem das Preis/Leistungs-Verhältnis der neuen Fertigung auch wirklich besser ist als jenes der früheren Fertigung.

Zusammenfassend läßt sich also sagen: Die Chancen der Radeon HD 9970 stehen derzeit eher auf einen 28nm-Refreshchip mit 2560 bis 2688 Shader-Einheiten und einem Performancepotential in Höhe der GeForce GTX Titan. Ein solcher Chip wäre in jedem Fall baubar und stellt eine sichere Wahl dar – ist aber nicht wirklich vom Hocker reißend, weil nVidia dann einfach die noch schnellere GeForce GTX Titan Ultra nachschieben würde. Unsicher, aber in jedem Fall die spannendere Variante wäre eine Radeon HD 9970 als erster 20nm-Chip mit 3072 bis 4096 Shader-Einheiten, gegenüber welcher nVidia nicht mehr kontern könnte, sondern dann ebenfalls 20nm-Chips auflegen müsste.