Erster Überblick zur 5nm Grafikchip-Generation

Montag, 26. Juli 2021

/ von Leonidas

Mit den Leaks & Gerüchten der letzten Tage formt sich langsam ein erstes Bild der 5nm-Generation im Grafikchip-Bereich. AMD und nVidia werden hierbei beiderseits mit getrennten Architekturen für HPC- und Gaming-Belange antreten. Auf nVidia-Seite besteht also keine Konkurrenz zwischen "Hopper" und "Lovelace", sondern jene Ansätze ergänzen sich genauso wie CDNA2 und RDNA3 auf AMD-Seite. Interessanterweise soll die Anzahl der FP32-Einheiten bei allen vier Spitzenchips in einem sehr ähnlichen Feld von 15'360 bis 18'432 liegen – bei allerdings je nach HPC- und Gaming-Segment anderem Aufbau, Effektivitätsrate und Zielsetzung der eigentlichen Recheneinheiten. Als Chipfertigung wird man durchgehend TSMCs 5nm-Prozeß benutzen – mit allerhöchstens der Varianz, ob es der "normale" N5-Node oder der (leicht) verbesserte N5P wird.

Drei der vier Chip-Projekte setzen dabei schon auf MultiChip-Ansätze (MCM, Chiplets) – einzig allein nVidias "Lovelace"-Generation kommt noch monolithisch daher. Damit könnte Lovelace durchaus die letzte monolithische Chip-Generation darstellen, in dieser Frage spielen Zeit und Wirtschaftlichkeit zugunsten des MCM-Ansatzes. Gerade wenn AMD mit seinem MCM-Ansatz bei den Navi-3X-Chips tatsächlich auf einer höheren Performance als nVidia herauskommen sollte (wird von den Gerüchten derart kolportiert, ist derzeit aber natürlich komplett ungesichert), muß sich nVidia nachfolgend zwingend mit dem Thema "MCM auch für Gaming" beschäftigen. Allerdings steht zu vermuten, dass man dies nVidia-intern längst getan hat, jeder große Chip-Entwickler bereitet sich üblicherweise immer auf so viele wie möglich Zukunftsoptionen vor.

	AMD	nVidia
HPC	Aldebaran (CDNA2) 2-Chip MCM-Design unter TSMC 5nm (?) (insgesamt) 16 SE, 256 CU mit 16'384 FP32 (full-rate FP64) (insgesamt) 8192 Bit HBM2e	GH100 (Hopper) 2-Chip MCM-Design unter TSMC 5nm (insgesamt) 16 GPC, 288 SM mit 18'432 FP32 höchstwahrscheinlich HBM2e-Interface weitere Chips: möglicherweise GH202 (für Gaming)
Gaming	Navi 31 (RDNA3) MCM-Design mit 2x GCD (TSMC 5nm) + 1x MCD (TSMC 6nm) (insgesamt) 6 SE, 60 WGP mit 15'360 FP32 (insgesamt) 256 Bit GDDR6 größerer Infinity Cache, angeblich sogar als extra Chips weitere Chips: Navi 32, Navi 33, möglicherweise Navi 34	AD102 (Lovelace) monolithisches Design unter TSMC 5nm 12 GPC, 144 SM mit 18'432 FP32 384 Bit GDDR6X + "größere Caches" weitere Chips: vermutlich AD103, AD104, AD106, AD107
Diagramme
Anmerkung: reine Wiedergabe von Gerüchten – keine offiziellen Daten

Stichwort Performance: nVidias Lovelace-Generation wird in Form des AD102-Chips eine (knappe) Verdopplung gegenüber dem GA102-Chip der Ampere-Generation nachgesagt. AMDs RDNA3-Generation soll hingegen in Form des Navi-31-Chips das 2,5fache bis sogar 2,7fache gegenüber Navi 21 erbringen, was – da die Ausgangslage zwischen GA102 und Navi 21 grob dasselbe Performance-Level hat – AMD in der kommenden Chip-Generation sogar klar vor nVidia sehen würde. Dieses Ergebnis ist derzeit natürlich nur eine Projektion auf Basis der vorhandenen Hardware-Daten – ohne vernünftiges Wissen darüber, wie die jeweiligen Grafikchip-Architekturen verändert wurden und was dies für Auswirkungen auf die Recheneffizienz dieser NextGen-Grafikchips haben wird.

	AMD Navi 21 → Navi 31	nVidia GA102 → AD102
Architektur	augenscheinlich deutlich veränderte Architektur (nicht nur wegen MCM), Wegfall der CUs (WGPs als neue hauptsächliche Ordnungseinheit), anscheinend 4 → 6 Shader-Engines, anscheinend 128 → 256 FP32 pro WGP	vermutlich vergleichweise ähnliche Grundarchitektur, 7 → 12 Raster-Engines (GPC)
FP32-Recheneinheiten	5'120 → 15'360 (+200%)	10'752 → 18'432 (+71%)
(hochgerechnete) Rohpower	21 TFlops → ~75-80 TFlops (+257-281%)	36 TFlops → ~80 TFlops (+122%)
Performance-Target	2,5-2,7fache (+150-170%)	1,9-2,0fache (+90-100%)
Anmerkung: reine Wiedergabe von Gerüchten – keine offiziellen Daten

Nichtsdestotrotz gibt es genau an dieser Stelle immer wieder kleine Hinweise seitens Leaker 'Kopite7kimi' darauf, dass nVidia eventuell mit einem GH202-Chip nachlegen könnte, falls die Lovelace-Generation gegenüber der RDNA3-Generation (an der Leistungsspitze) nicht schlagkräftig genug wäre. Dies würde grundsätzlich überraschen, denn zum einen erscheint die Hopper-Generation für den Gaming-Einsatz wenig geeignet (andere Ausgestaltung der Recheneinheiten, vermutlich keine RT-Cores), zum anderen sind solcherart schnelle Wechsel für nVidia eher denn untypisch. Gänzlich unmöglich ist dieser Weg aber auch nicht, selbst wenn sich "GH202" dann deutlich von "GH100" unterscheiden müsste: In jedem Fall müssen dann RT-Cores mit dabei sein, ansonsten ist dies im Gaming-Segment nicht verkaufsfähig.

Zudem könnte jener GH202 dann auch bei nVidia den MCM-Ansatz ins Gaming-Segment bringen. Die notwendige Technologie hierfür wird in der Hopper-Architektur vorhanden sein, während das reine Hochtreiben der Hardware-Einheiten bei der (monolithischen) Lovelace-Architektur irgendwann an ein Limit stoßen dürfte. Zudem könnte man sich auch vorstellen, dass nVidia für den GH202-Chip dann das HBM2e-Speicherinterface des GH100 bemüht, damit man wegen dessen höherer Energieeffizienz etwas mehr Platz unter dem Powerlimit bekommt. Derzeit ist ein GH202-Chip als nachfolgender RDNA3-Konter sicherlich nur eine Möglichkeit, aber wegen der mehrfachen Erwähnung seitens 'Kopite7kimi' muß jene schlicht auf dem Radar bleiben.

Navi 32 — MCM-Konstrukt, Hardware-Daten derzeit vollkommen unsicher
Navi 33 — monolithisch oder zumindest nur mit einem GCD, angeblich genauso viele FP32-Einheiten wie Navi 21 (5120), Tape-Out angeblich im Q4/2021
Navi 34 — rein vermuteter weiterer Chip, bisher komplett unbestätigt

AD103, AD104, AD106 & AD107 — vermutete weitere Chips der Lovelace-Generation mit jeweils kleinerer Hardware
GH202 — möglicherweise nachfolgender Konter auf Navi 31 (sprich für Gaming trotz Hopper-Abstammung), tatsächliches Erscheinen & Hardware-Daten unklar

Genauso gilt für alle nachfolgenden Chips der Navi-3X- und AD10X-Familien jetzt sicherlich erst einmal abzuwarten, dass sich diese Hardware-Daten zu Navi 31 und AD102 bestätigen und ob mit deren (anstehenden) Tape-Outs sich eventuell genauere Informationen zu diesen kompletten Chip-Familie einfinden. Bei Navi 32 & 33 sind selbige teilweise bereits vorhanden, allerdings immer noch recht konfus und im Fluß befindlich. Bei AD10X ist hingegen noch gar nichts griffiges verfügbar – könnte man zwar spekulieren, aber auch einfach das Auftauchen des nächsten Leaks abwarten. Die kleineren Chips haben zwar größtenteils spätere Tape-Out-Daten, aber die Planung zu deren Hardware-Konfiguration wird letztlich zum selben Zeitpunkt abgeschlossen sein – schließlich richtet sich das Portfolio der kleineren Chips immer am größten Chip aus.

Jene größten Chips werden in der 5nm-Generation augenscheinlich enorme Zuwächse an reiner Rechenleistung mitbringen, gleichfalls lassen sich die Grafikchip-Entwickler bei ihren Performance-Projektionen nicht lumpen und streben wenigstens eine Performance-Verdopplung gegenüber dem bisherigen Stand an. Sofern sich dies nur ansatzweise erfüllt, wird dies jedoch kaum ohne einen weiter nach oben gehenden Stromverbrauch vonstatten gehen können. Die Stromverbrauchs-Charakteristik der 5nm-Fertigung läßt eigentlich nur 40-50% mehr Rechen-Einheiten zum gleichen Stromverbrauch zu, selbst eingerechnet in der Praxis leicht bessere Werte zuzüglich Effizienzgewinne durch Architektur-Verbesserungen reicht es niemals, um die für Navi 31 und AD102 genannte Hardware-Konfiguration ohne höheren Stromverbrauch zu realisieren.

	AMD	nVidia
HPC	Aldebaran (CDNA2) Projektstatus: Designende erreicht Tape-Out: augenscheinlich bereits 2020 gelaufen Vorstellung: sollte umgehend erfolgen Marktstart: erste Auslieferungen im Q2/2021 Spekulations-Thread zu "AMD CDNA2" im 3DCenter-Forum	GH100 (Hopper) Projektstatus: Designende erreicht Tape-Out: angeblich in Bälde Vorstellung: möglicherweise Frühjahr 2022 Marktstart: vermutlich Ende 2022 Spekulations-Thread zu "nVidia Hopper" im 3DCenter-Forum
Gaming	Navi 31 (RDNA3) Projektstatus: Designende vermutlich erreicht Tape-Out: angeblich in Bälde Launch: erwartet H2/2022 Spekulations-Thread zu "AMD RDNA3" im 3DCenter-Forum	AD102 (Lovelace) Projektstatus: Projekt-Plan finalisiert Tape-Out: vermutlich später im Jahr Launch: erwartet Q4/2022 Spekulations-Thread zu "nVidia Lovelace" im 3DCenter-Forum
Anmerkung: reine Wiedergabe von Gerüchten – keine offiziellen Daten

Mit großen Performancesprüngen geht heutzutage immer auch die Sorge bezüglich Preislagen und Verfügbarkeit einher. Um über Preise zu spekulieren, ist es derzeit eigentlich noch zu früh – dies entwickelt sich auch bei den Chip-Entwicklern erst mit der Arbeit am lauffähigen Silizium, wird aber letztlich zumeist erst kurz vor der offiziellen Vorstellung final festgelegt (manchmal erst Tage vorher). Grundsätzlich wird hierbei aber auch mit hineinspielen, ob die Chip-Krise bis zu diesem Zeitpunkt so weit ausgestanden ist, dass tatsächlich wieder zum Listenpreis verkauft werden kann. Zumindest für die nächste Grafikchip-Generation gibt es diesbezüglich eine positive Vorhersage seitens Greymon55 @ Twitter – welcher, trotz dass alle vier Grafikchip-Projekte fast gleichzeitig unter der 5nm-Fertigung von TSMC vom Band laufen sollen, eine gute Verfügbarkeit der 5nm-Generation in Aussicht stellt:

If nothing special happens, there will be no shortage of chips in the next generation.
Quelle: Greymon55 @ Twitter am 24. Juli 2021

Nachtrag vom 26. Juli 2021

'Bondrewd' hat im Beyond3D-Forum die Sache des Hardware-Aufbaus von Navi 31 noch einmal klar gemacht mittels der kurzen Statusmeldung "32 * 8 * 10 * 3 * 2". Dies ist zu lesen als "SIMD-Breite x Anzahl SIMD x WGP x Shader-Engines x GCD" (bestätigt durch Bondrewd), wobei es umgedreht vielleicht einfacher verständlich ist: Zwei Einzelchips mit jeweils 3 Shader-Engines, jeweils 10 WGPs, jeweils 8 SIMD auf SIMD-Breite 32. Alles hübsch miteinander multipliziert ergibt dies zum einen 15360 SIMD- aka FP32-Einheiten, verteilt auf zwei GCDs á 7680 SIMD/FP32-Einheiten. Der Einzelchip bietet dann jeweils 3 Shader-Engines und 30 WGP auf, für den gesamten Navi 31 Chip sind es 6 Shader-Engines und 60 WGP.

it's 32 * 8 * 10 * 3 * 2
Quelle: Bondrewd @ Beyond3D-Forum am 26. Juli 2021

Navi 21	Navi 31 GCD	Navi 31 komplett
4 Shader-Engine (SE) 40 Workgroup Processor (WGP) 80 Compute Unit (CU) 64 FP32 per CU (128 FP32 per WGP) 5'120 FP32-Einheiten	3 Shader-Engine (SE) 30 Workgroup Processor (WGP) 256 FP32 per WGP 7'680 FP32-Einheiten	2 GCD 6 Shader-Engine (SE) 60 Workgroup Processor (WGP) 256 FP32 per WGP 15'360 FP32-Einheiten
Anmerkung: reine Wiedergabe von Gerüchten – keine offiziellen Daten

Damit erübrigen sich dann auch alle Überlegungen in andere Richtungen hin (größere Anzahl an Einzelchips, abweichende Anzahl an WGPs), denn aufgrund der vorliegenden Details führt somit nunmehr nur noch eine einzige Logik zum Ziel. Die bis vor kurzem breit angenommenen 80 Shader-Cluster (CU) als Grundlage eines GCDs von Navi 31 sind damit nicht korrekt. In dieser Frage hat man sich möglicherweise zu sehr von den Einträgen in einem früheren MacOS-Treiber beeinflussen lassen, welche sich nunmehr als schlichte Platzhalter-Daten ohne Bedeutung herausstellen. Olrak29 @ Twitter hat jenen Hardware-Ansatz von Navi 31 letztlich auch noch in ein (eigenerstelltes) Blockdiagramm gegossen.

Nachtrag vom 27. Juli 2021

Twitterer Kepler_L2 hat seine Vorhersage zur Hardware-Konfiguration der RDNA3-Chips Navi 31, 32 & 33 aktualisiert, basierend auf der neuen Ausgestaltung der WGPs innerhalb der RDNA3-Architektur. Sowohl die frühere Angabe als auch die aktuelle Angabe kann man dabei – nach unserer eigenen Vermutung – als Anzahl an GCDs mal Anzahl der Shader-Engines pro GCD lesen. Dies passt sowohl für die frühere Angabe zum seinerzeitigen Gerüchtestand, als auch für die aktuelle Angabe zum aktuellen Gerüchtestand zur Hardware-Gestaltung von Navi 31. Navi 31 käme somit auf der bekannten Hardware mit zwei GCDs á jeweils 3 Shader-Engines heraus – auf jeweils 10 WGP pro Shader-Engine sind dies 30 WGP pro GCD sowie 60 WGP insgesamt und somit in der Summe 15'360 FP32-Einheiten.

For memory config I still believe this is correct, but for shader config maybe it's actually
2x3
2x2
1x2
Quelle: Kepler_L2 @ Twitter am 26. Juli 2021

Navi 32 würde hingegen aus zwei GCD mit jeweils nur 2 Shader-Engines bestehen. Sofern hier derselbe Design-Grundsatz benutzt wird (10 WGP pro Shader-Engine), ergäbe dies 20 WGP pro GCD sowie 40 WGP insgesamt und in der Summe 10'240 FP32-Einheiten. Denkbar wäre vielleicht auch eine geringere Anzahl an WGPs pro Shader-Engine sein, damit Navi 32 besser in die Mitte zwischen Navi 31 & 33 passt. Auf nur 8 WGPs pro Shader-Engines ergäben sich für Navi 32 dann 16 WGP pro GCD sowie 32 WGP insgesamt und in der Summe 8'192 FP32-Einheiten. Navi 32 würde damit allerdings näher zu Navi 33 (5'120 FP32) als an Navi 31 (15'360 FP32) tendieren, was wahrscheinlich nicht beabsichtigt ist – womit die vorherige Auflösung mit 10 WGP pro Shader-Engine am Ende doch wieder wahrscheinlicher ist. Navi 33 käme hingegen hiermit auf 20 WGP und 5'120 FP32-Einheiten heraus – ganz so wie allgemein angenommen.

	Navi 33	Navi 32	Navi 31
Chips	monolithisch (1 GCD)	2 GCD + 1 MCD	2 GCD + 1 MCD
pro GCD	2 Shader-Engines 20 WGP 5'120 FP32	2 Shader-Engines wahrscheinlich: 20 WGP 5'120 FP32	3 Shader-Engines 30 WGP 7'680 FP32
insgesamt	2 Shader-Engines 20 WGP 5'120 FP32	4 Shader-Engines wahrscheinlich: 40 WGP 10'240 FP32	6 Shader-Engines 60 WGP 15'360 FP32
Fertigung	6nm TSMC	GCD: 5nm TSMC, MCD: 6nm TSMC
Tape-Out	angeblich Q4/2021	unbekannt	angeblich in Bälde
Anmerkung: reine Wiedergabe von Gerüchten – keine offiziellen Daten

Auch mit dieser Auflösung würde Navi 32 allerdings nicht (nominell) gleichmäßig in der Mitte zwischen Navi 33 & 31 sitzen. Eingerechnet allerdings gewisse Effizienzverluste des Chiplet-Ansatzes gegenüber monolithischen Designs ist es wohl besser, zwischen Navi 33 & 32 etwas mehr Platz zu haben als umgedreht zwischen Navi 32 & 31. Alle GCDs enthalten im übrigen jeweils einen kompletten Grafikchip, sprich inklusive Interfaces für Speicher & PCI Express sowie einer Video-Einheit. Die Differenz zwischen Navi 33 sowie Navi 31/32 liegt schlicht darin, dass letztere beide Chips den Infinity Cache auf dem extra MCD tragen, während selbiger bei Navi 33 direkt in den eigentlichen Grafikchip integriert ist. Alle drei GCDs sind somit jeweils unterschiedlich – wie es auch Bondrewd im Beyond3D-Forum ausdrücklich bestätigt.

	monolithisch	MCM/Chiplet
GCD enthält	Recheneinheiten, Speicherinterface, PCIe-Interface, Video-Einheit + Infinity Cache	Recheneinheiten, Speicherinterface, PCIe-Interface, Video-Einheit
MCD enthält	nicht vorhanden	Infinity Cache
gilt für	Navi 33	Navi 31 & 32
Anmerkung: reine Wiedergabe von Gerüchten – keine offiziellen Daten