Prognosen zu AMDs Southern Islands und nVidias Kepler

Dienstag, 19. Juli 2011
 / von Leonidas
 

Im Herbst/Winter 2011 stehen nach längerer Zeit endlich mal wieder neue Grafikchip-Generationen an, wobei AMD und nVidia jeweils auf ein neues Fertigungsverfahren (28nm bei TSMC) sowie jeweils auch auf neue Architekturen setzen. Insbesondere die im Grafikchip-Bereich erstmals eingesetzte 28nm-Fertigung wird dabei für ein gehöriges Performance-Plus sorgen, nachdem die aktuelle Refresh-Generation (AMD Northern Islands aka Radeon HD 6000 Serie bzw. nVidia Fermi-Refresh aka GeForce 500 Serie) nur in arg begrenzten Teilen deutlich mehr Performance brachte und grob betrachtet nur ein "Performance-Update" darstellte. Beide Grafikchip-Entwickler arbeiten nun einmal schon seit einigen Jahren am Maximum dessen, was Fertigungstechnologie und Wirtschaftlichkeit hergeben – grundlegend schnellere Grafikchips bedingen demzufolge ein neues Fertigungsverfahren, was eben erst jetzt wieder mit dem kommenden 28nm-Prozeß ansteht.

Beide Grafikchip-Entwickler haben zudem über die letzten Jahre genügend (positive und negative) Erfahrungen sammeln können, wie groß Grafikchips für alle Marktsegmente werden dürfen – und dürften in dieser Frage wenig geneigt sein, ihre Grafikchips wesentlich größer zu machen als zuletzt erlebt. AMD hat hier mit seinen bislang immer etwas kleineren Grafikchips vielleicht noch ein wenig Spielraum, nVidia sicherlich keinen mehr. AMD dürfte allerdings auch einen Teil dieses Spielraums für seine neue "Graphics Core Next" Grafikchip-Architektur verbraten und damit in der nächsten Grafikchip-Generation ganz automatisch etwas größere Chips als bisher entwerfen. Größere Zugewinne durch einfach größere Grafikchips sind also kaum zu erwarten, der hauptsächliche Performance-Effekt muß durch den geringeren Platzbedarf der 28nm-Fertigung kommen, welcher dann nachfolgend wiederum für mehr Hardware-Einheiten ausgenutzt werden wird.

Vorteilhafterweise steht keine neue DirectX-Ausführung auf dem Programm, welche auch noch Transistoren kosten würde – die nächste Grafikchip-Generation wird weiterhin DirectX11 beherrschen, so daß sich AMD und nVidia mitsamt der neuen 28nm-Fertigung komplett auf den Punkt einer höheren Performance konzentrieren können. Um abschätzen zu können, was damit möglich ist, lohnt ein Blick in die jüngere Grafikchip-Vergangenheit. Immer mit dem Auftauchen eines neuen Fertigungsschritts (sofern es sich um einen vollen Fertigungsschritt wie zwischen 40nm und 28nm handelt, halbe Schritte wie zwischen 65nm und 55nm zählen hierbei nicht) wurde eine deutliche Steigerung der Einheitenanzahl möglich, teilweise natürlich auch realisiert durch die im Laufe der Zeit steigenden Packdichten der Transistoren auf dem Chip-Die.

AMD nVidia
ATI R600
80nm Fertigung, 408mm² Die-Fläche
720 Mill. Transistoren
320 VLIW5 Shader-Einheiten
Radeon HD 2900 XT ca. 175W Spieleverbrauch
nVidia G80
90nm Fertigung, 484mm² Die-Fläche
681 Mill. Transistoren
128 1D Shader-Einheiten
GeForce 8800 GTX ca. 160W Spieleverbrauch
ATI RV770
55nm Fertigung, 256mm² Die-Fläche
956 Mill. Tranistoren
800 VLIW5 Shader-Einheiten
Radeon HD 4870 ca. 140W Spieleverbrauch
nVidia GT200
65nm Fertigung
576mm² Die-Fläche
1400 Mill. Transistoren
240 1D Shader-Einheiten
GeForce GTX 280 ca. 190W Spieleverbrauch
ATI RV870/Cypress
40nm Fertigung, 334mm² Die-Fläche
2154 Mill. Transistoren
1600 VLIW5 Shader-Einheiten
Radeon HD 5870 ca. 158W Spieleverbrauch
nVidia GF100
40nm Fertigung, 526mm² Die-Fläche
3040 Mill. Transistoren
512 1D Shader-Einheiten
GeForce GTX 480 ca. 249W Spieleverbrauch

Gut zu sehen ist dabei, daß im Schnitt eine glatte Verdopplung der Anzahl der Shader-Einheiten mit einem neuen (echten) Fertigungsschritt erzielt werden konnte, ohne daß deswegen (im Schnitt) die Die-Fläche anstieg. Allerdings gibt es die gewisse Tendenz, daß die Verlustleistungen über die Generationen ansteigen, bei nVidia besonders deutlich zu sehen. Dies kann ein Bremspunkt für die nächste Grafikchip-Generation darstellen, denn eine höhere Leistungsaufnahme von SingleChip-Grafikkarten als bei GeForce GTX 480 & 580 zu sehen ist kaum vorstellbar. Zudem begrenzt die hohe Leistungsaufnahme dieser Karten dann schon die Möglichkeiten der entsprechenden DualChip-Grafikkarten – nVidia musste seine GeForce GTX 590 schon deutlich stärker beschneiden als AMD seine Radeon HD 6990, aus einer nochmals mehr verbrauchenden SingleChip-Lösung wäre dann kaum noch eine DualChip-Lösung erstellbar.

Aus dieser Sicht heraus erscheint es als diffizil, eine automatische Verdopplung der Hardware-Einheiten bei den kommenden Grafikchip-Generationen anzunehmen – zumindest nVidia sollte bei dieser klar ersichtlichen Historie dann in das Problem hineingeraten, daß eine angenommene Kepler HighEnd-Grafikkarte mit 1024 Shader-Einheiten unter 28nm eine wiederum klar höhere Verlustleistung im Rahmen von 300 Watt aufweisen sollte. Ob nVidia diesen Weg gehen will oder aber ob eventuell andere Dinge diese Verlustleistungs-Entwicklung (unerwarteterweise) aufhalten, wird sich zeigen. Als wichtiger Punkt wäre hieraus jedoch mitzunehmen, daß eine Einheitenverdoppling schlicht das absolut obere Ende dessen darstellt, was bei der nächsten Grafikchip-Generation beider Entwickler technisch realisierbar erscheint.

Auch bei AMD ist eine Einheiten-Verdopplung kein Selbstläufer, obwohl man bei AMD über die vorskizzierten drei Fertigungsschritte die Verlustleistungs-Problematik viel besser als nVidia im Griff gehalten hat. Allerdings wird AMD bei Southern Islands seine neue "Graphics Core Next" Grafikchip-Architektur ansetzen, welche aufgrund des Wechsels von VLIW Shader-Einheiten zu gewöhnlichen (auch von nVidia verwendeten) 1D Shader-Einheiten, einer grundsätzlichem Umorganisation des Grafikchips und sehr vielen neuen GPGPU-Funktionalitäten einiges an Transistoren kosten wird – und dies bevor auch nur eine zusätzliche Shader-Einheit verbaut werden kann.

AMD hat wie gesagt bei der Die-Fläche einigen Spielraum und könnte diesen durchaus dazu nutzen, um einen gegenüber dem RV870/Cypress verdoppelten Tahiti-Grafikchip aufzulegen – allerdings dann unter dem Verlust des bisher klaren Vorteils bei der Die-Fläche und natürlich verbunden mit einem kräftigen Aufschlag bei der Verlustleistung. Auch bei AMD ist es somit zweifelhaft, ob man diesen Weg gehen will, denn auch hier ist die glatte Verdopplung der kommenden Grafikchips gegenüber ihren Vorgängern wiederum das obere Ende dessen, was technisch realisierbar und vorstellbar ist. Insbesondere da die (bei AMD) neuen 1D Shader-Einheiten zudem für eine höhere Effizienz des Designs sorgen werden, ist eine Einheitenverdopplung bei AMD gar nicht nötig, um auf die doppelte Performance (unter idealen Bedingungen) zu kommen – geschätzt reichen dafür 80 bis 90 Prozent mehr Shader-Einheiten aus.

Genau dies dürfte AMD vermutlich als guten Kompromiß anstreben – zwar eine erneute Verdopplung der Performance (unter idealen Bedingungen), allerdings nur eine maßvoll größere Die-Size, um den bisherigen Vorteil in dieser Frage nicht zu verlieren. Damit lassen sich ausgehend von den Daten der letzten Grafikchip-Generationen von AMD durchaus gewisse Prognosen zu der Anzahl der Hardware-Einheiten der kommenden Southern-Islands-Grafikchip treffen. Hierbei helfen natürlich auch die früheren AMD-Prognosen zu den Southern-Islands-basierenden Mobile-Ausführungen (welche auch sichere Informationen zu den benutzten Speicherinterfaces bereitstellen) sowie der Punkt, daß drei der vier Southern-Islands-Grafikchips laut Treiber-Einträgen höchstwahrscheinlich auf der neuen "Graphics Core Next" Grafikchip-Architektur basieren. Darauf aufbauend lassen sich folgende Prognosen abgeben (wovon bis auf die Speicherinterfaces wie gesagt allesamt reine Spekulationen sind):

Evergreen
(Radeon HD 5000)
Northern Islands
(Radeon HD 6000)
Southern Islands
HighEnd RV870/Cypress
2154 Mill Tr. auf 334mm² in 40nm
1 Raster-Engine (mit verdoppeltem Raster-Setup)
1600 VLIW5 SE, 80 TMUs, 32 ROPs, 256 Bit SI
Radeon HD 5870 @ 158W Spieleverbrauch
RV970/Cayman
2640 Mill Tr. auf 389mm² in 40nm
2 Raster Engines
1536 VLIW4 SE, 96 TMUs, 32 ROPs, 256 Bit SI
Radeon HD 6970 @ 205W Spieleverbrauch
Tahiti
28nm
2048-2560 1D Shader-Einheiten
128-160 Textureneinheiten
384 oder 512 Bit Speicherinterface

Performance bestenfalls etwas besser als Radeon HD 6990
Preislage ca. 400 Euro, Spieleverbrauch ca. 200-250W
Performance RV840/Juniper
1040 Mill. Tr. auf 166mm² in 40nm
1 Raster-Engine
800 VLIW5 SE, 40 TMUs, 16 ROPs, 128 Bit SI
Radeon HD 5770 @ 81W Spieleverbrauch
RV940/Barts
1700 Mill. Tr. auf 255mm² in 40nm
1 Raster-Engine (mit verdoppeltem Raster-Setup)
1120 VLIW5 SE, 56 TMUs, 32 ROPs, 256 Bit SI
Radeon HD 6870 @ 124W Spieleverbrauch
Cape Verde
28nm
1152-1408 1D Shader-Einheiten
72-88 Textureneinheiten
256 Bit DDR Speicherinterface

Performance bestenfalls wie Radeon HD 6970
Preislage ca. 180 Euro, Spieleverbrauch ca. 130W
Mainstream RV830/Redwood
627 Mill. Tr. auf 104mm² in 40nm
1 Raster-Engine
400 VLIW5 SE, 20 TMUs, 8 ROPs, 128 Bit SI
Radeon HD 5670 @ 51W Spieleverbrauch
RV930/Turks
720 Mill. Tr. auf 118mm² in 40nm
1 Raster-Engine
480 VLIW5 SE, 24 TMUs, 8 ROPs, 128 Bit SI
Radeon HD 6670 @ 53W Spieleverbrauch
Pitcairn
28nm
512-704 1D Shader-Einheiten
32-44 Textureneinheiten
192 Bit DDR Speicherinterface

Performance bestenfalls wie Radeon HD 6790
Preislage ca. 80 Euro, Spieleverbrauch ca. 70W
LowCost RV810/Cedar
292 Mill. Tr. auf 63mm² in 40nm
1 Raster-Engine
80 VLIW5 SE, 8 TMUs, 4 ROPs, 64 Bit SI
Radeon HD 5450 @ 15W Spieleverbrauch
RV910/Caicos
370 Mill Tr. auf 67mm² in 40nm
1 Raster-Engine
160 VLIW5 SE, 8 TMUs, 4 ROPs, 64 Bit SI
Radeon HD 6450 @ 25W Spieleverbrauch
Lombok
256-320 VLIW4 Shader-Einheiten
16-20 Textureneinheiten
128 Bit DDR Speicherinterface

Performance bestenfalls wie Radeon HD 5570
Preislage ca. 40 Euro, Spieleverbrauch ca. 35W

Wir gehen also von einem großen Performancesprung bei AMDs Southern-Islands-Generation gegenüber der vorhergehenden Northern-Islands-Generation aus, aber sicherlich kaum einer Performanceverdopplung – dafür müsste AMD, immer die transistorenfressende "Graphics Core Next" Grafikchip-Architektur im Hinterkopf, den Vorteil der kleineren Grafikchips gegenüber nVidia opfern, was nicht zur bisherigen AMD-Strategie passt. Begründet durch diesen Effekt könnte der Performance-Sprung von AMD bei Southern Islands auch kleiner ausfallen als gedacht – im Rahmen von +60% bis +90% ist wohl derzeit noch alles möglich. Trotzdem wird es so oder so ein überzeugendes Performanceplus gegenüber der aktuellen Northern-Islands-Generation geben, dies ist keine Frage angesichts der Möglichkeiten der 28nm-Fertigung. Einzig allein der Performance-Chip von Southern Islands (Cape Verde) dürfte vielleicht ein etwas unterdurchschnittliches Performanceplus hinlegen – dies hängt aber an dem Sonderfall, daß der Performance-Chip von Northern Islands (RV940/Barts) schon einen für eine Refresh-Generation untypisch großen Performancesprung gegenüber einem Vorgänger aus der Evergreen-Generation (RV840/Juniper) hingelegt hatte.

Bewußt kleine Chips mit vielleicht nur 50 Prozent mehr Hardware-Power (oder weniger) können sich AMD und nVidia aufgrund des gegenseitigen Konkurrenzkampfes aber auch wieder nicht leisten – selbst wenn dies im Hinblick auf die Ende 2012 nachfolgenden Refresh-Generationen zu Southern Islands und Kepler ein schönes Polster wäre. So aber werden AMD und nVidia immer versuchen – im Rahmen ihrer jeweiligen Strategien – das Maximum auch schon aus der ersten 28nm-Generation herauszuholen, selbst wenn dies bedeutet, daß für die zwangsläufig folgende Refresh-Generation in derselben Fertigung kaum noch große Reserven übrigbleiben.

Bei nVidia steht kein so großer Umbruch auf Architektur-Seite wie bei AMD an, vermutlich bringt Kepler auf Spiele-Seite kaum größere Architektur-Impulse mit sich und investiert nVidia eher in Richtung (noch) besserer GPGPU-Fähigkeiten. Dafür ist es allerdings möglich, daß nVidia mit der Kepler-Generation wieder davon Abstand nimmt, die kleineren Grafikchips dieser Generation mit einem Verhältnis von 6:1 zwischen Shader- und Textureneinheiten auszustatten und zum Verhältnis von 8:1 zwischen Shader- und Textureneinheiten der größeren Fermi-Grafikchips GF100 und GF110 zurückkehrt.

Bei der Fermi-Generation hat das kleinere 6:1-Verhältnis den kleineren Fermi-Chips zu einer anständigen Texturierpower verholfen, aber angesichts der bei Kepler durchaus "drohenden" Verdopplung der Shader-Einheiten wäre dies dann vielleicht zuviel Texturierpower für die kleineren Chips (bis zu 128 TMUs bei einem Performance-Chip, bis zu 64 TMUs bei einem Mainstream-Chip). Angesichts des stetigen Rückgangs der Bedeutung von fixen Textureneinheiten bietet es sich ab und zu an, die Textureneinheiten nicht in demselben Maßstab hochzuskalieren wie die Shader-Einheiten – nicht unwahrscheinlich, daß nVidia diesen Punkt nun bei der Kepler-Generation angeht.

Andererseits ist zu Kepler bezüglich der Anzahl der Hardware-Einheiten noch nahezu alles offen, liegen – im Gegensatz zu AMDs Southern-Islands-Generation – noch keinerlei Daten vor, so daß derzeit wirklich alles nur Spekulation ist. Diese wird allerdings durch zwei Punkte begrenzt: Zum einen wird nVidia kaum mehr als eine reine Verdopplung der Fermi-Generation bieten – und zum anderen wird es sicherlich auch nicht weniger als 50 Prozent mehr Hardware-Einheiten geben, weil nVidia ansonsten in das schon vorbeschriebene Problem käme, AMD zu viel Angriffsfläche zu bieten. Damit sind die Prognosen zu den einzelnen Kepler-Chips natürlich derzeit viel variabler als zu den AMD-Chips – und wie gesagt ist dies derzeit allesamt reine Spekulation:

Fermi
(GeForce 400)
Fermi-Refresh
(GeForce 500)
Kepler
HighEnd GF100
3040 Mill. Tr. auf 526mm² in 40nm
4 Raster-Engines
(max. genutzt) 480 1D SE, 60 TMUs, 48 ROPs, 384 Bit SI
GeForce GTX 480 @ 249W Spieleverbrauch
GF110
3040 Mill. Tr. auf 520mm² in 40nm
4 Raster Engines
512 1D SE, 64 TMUs, 48 ROPs, 384 Bit SI
GeForce GTX 580 @ 247W Spieleverbrauch
GK100
28nm
896-1024 1D Shader-Einheiten
112-128 Textureneinheiten
384 oder 512 Bit DDR Speicherinterface

Performance bestenfalls deutlich besser als GeForce GTX 590
Preislage ca. 450 Euro, Spieleverbrauch ca. 250-300W
Performance GF104
1950 Mill. Tr. auf 365mm² in 40nm
2 Raster Engines
(max. genutzt) 336 1D SE, 56 TMUs, 32 ROPs, 256 Bit SI
GeForce GTX 460 @ 123W Spieleverbrauch
GF114
1950 Mill. Tr. auf 358mm² in 40nm
2 Raster Engines
384 1D SE, 64 TMUs, 32 ROPs, 256 Bit SI
GeForce GTX 560 Ti @ 153W Spieleverbrauch
GK104
28nm
576-768 1D Shader-Einheiten
72-128 Textureneinheiten
256 Bit DDR Speicherinterface

Performance bestenfalls wie GeForce GTX 580
Preislage ca. 250 Euro, Spieleverbrauch ca. 150W
Mainstream I GF106
1170 Mill. Tr. auf 228mm² in 40nm
1 Raster Engine
(max. genutzt) 192 1D SE, 32 TMUs, 16 ROPs, 128 Bit SI
GeForce GTS 450 @ 84W Spieleverbrauch
GF116
1170 Mill. Tr. auf 228mm² in 40nm
1 Raster Engine
192 1D SE, 32 TMUs, 24 ROPs, 192 Bit SI
GeForce GTX 550 Ti @ 105W Spieleverbrauch
GK106
28nm
288-384 1D Shader-Einheiten
36-64 Textureneinheiten
192 Bit DDR Speicherinterface

Performance bestenfalls wie GeForce GTX 560
Preislage ca. 120 Euro, Spieleverbrauch ca. 90W
Mainstream II GF108
580 Mill. Tr. auf 114mm² in 40nm
1 Raster Engine
96 1D SE, 16 TMUs, 4 ROPs, 128 Bit SI
GeForce GT 440 @ 57W Spieleverbrauch
GF118
580 Mill. Tr. auf 114mm² in 40nm
1 Raster Engine
96 1D SE, 16 TMUs, 4 ROPs, 128 Bit SI
(bislang im Desktop-Bereich nicht eingesetzt)
GK108
28nm
144-192 1D Shader-Einheiten
24-32 Textureneinheiten
128 Bit DDR Speicherinterface

Performance bestenfalls wie GeForce GTS 450
Preislage ca. 60 Euro, Spieleverbrauch ca. 60W
LowCost - GF119
40nm
1 Raster Engine
48 1D SE, 8 TMUs, 4 ROPs, 64 Bit SI
GeForce GT 520 @ 34W Spieleverbrauch
-

Der zu erwartende Performance-Sprung von nVidias Kepler-Generation gegenüber der Fermi-Refreshgeneration liegt bei +50% bis +90%, wobei letzteres wohl nur unter einer klaren Verdopplung der Hardware-Einheiten und damit wiederum sehr großen Grafikchips und womöglich einem nochmals steigenden Verbrauch zu realisieren wäre. Wir würden eher auf einen gewissen Mittelweg tippen – mögliche Szenarien sind hier eine Hardware-Verdopplung nur der Shader-Einheiten zusammen mit einer nicht im gleichen Maß steigenden Anzahl an Textureneinheiten oder auch eine um nur ca. 75% steigende Anzahl von Hardware-Einheiten. Denkbar wäre auch eine Ausweitung des Fermi-Ansatzes: Zwar verdoppelte Grafikchips, von welchen aber im Rahmen der ersten Kepler-Generation nicht alle Hardware-Teile genutzt werden.

nVidia muß jedenfalls seitens AMD keine Performance-Verdopplung fürchten und kann daher durchaus einen etwas kleinen Ansatz wählen – dies würde zum einen produktionstechnisch besser zu realisieren sein (besonders bei einem unerprobtem Fertigungsverfahren) und zum anderen auch gewisse Reserven für eine Refresh-Generation offenlassen, die nicht wie die aktuelle Fermi-Refreshgeneration dann nur unterdurchschnittliche Performance-Zuwächse bringen könnte. Dies bedeutet natürlich nicht, daß nVidia dies auch so umsetzt – unter Umständen sieht man gerade jetzt seine Chance, wo AMD eine neue Architektur herausbringt, deren Spiele-technische Vorteile (zum derzeitigen Zeitpunkt) als eher unterdurchschnittlich ausgeprägt anzusehen sind.

In der Summe sind diese Prognosen natürlich noch reichlich vage. Wir haben uns zudem genügend Spielraum in alle Richtungen hin gelassen – so daß es doch überraschend wäre, wenn etwas deutlich anders herauskommt, als vorstehend prognostiziert. Andererseits bleibt die Grundregel bestehen, daß die kommende 28nm-Fertigung die hauptsächlichen Grenzen für den Performance-Zuwachs setzt: Maximal ist das Doppelte möglich (allerdings wenig wahrscheinlich), mindestens wenigstens 50 Prozent Performance-Aufschlag gegenüber den aktuellen Grafikkarten. In diesem Rahmen werden sich AMDs Southern Islands und nVidia Kepler so oder so bewegen, somit sind unsere Prognosen dann nicht einmal gewagt, sondern einfach nur mittlere Annahmen. Wie nahe wir damit an der letztlichen Wahrheit liegen, wird sich dann ab dem Herbst zeigen, wenn zuerst Southern Islands und im Winter dann Kepler in den Ring steigen werden.