30

News des 29./30. September 2023

Die Aussagen von Twitterer & Leaker Kopite7kimi zum GB202-Chip beinhalteten zugleich auch Aussagen zur grundsätzlichen Hardware von "GB100", dem HPC/KI-Chip der kommenden Blackwell-Generation. Jene sind recht kurz gehalten: 8 GPC samt jeweils 10 TPC und ein 8192 Bit breites Speicherinterface (natürlich dann wieder für HBM-Speicher, bei dieser Interface-Breite). Sofern wiederum 2 Shader-Cluster pro TPC gelten, ergibt dies 160 Shader-Cluster – und damit einen verhältnismäßig kleinen Sprung gegenüber dem GH100-Chip (144 SM @ 6144 Bit). Natürlich muß dieses Prinzip von 2 Shader-Cluster pro TPC bei HPC-Blackwell nicht zwingend gelten, gleichfalls könnte nVidia die Shader-Cluster erneut aufblähen und mehr Fließkomma-, Integer- und Tensor-Einheiten integrieren.

GB100 will have a basic structure like 8*10.
Quelle:  Kopite7kimi @ Twitter am 28. September 2023
 
GB100 8192-bit
Quelle:  Kopite7kimi @ Twitter am 28. September 2023

Ein unklarer wie gewichtiger Punkt ist dann noch, ob diese Hardware-Daten bereits den vollen GB100-Chip in MCM-Bauform enthalten – oder nur für einen Einzelchip gelten, was man somit noch verdoppeln könnte. Die Breite des Speicherinterfaces spricht allerdings bereits für den kompletten Chip, egal ob sich jener intern aus zwei Einzelchips zusammensetzt. Sofern man also davon ausgeht, dass ein GB100 schlicht aus zwei GB102 besteht, würden diese Einzelchips mit jeweils 80 Shader-Clustern an einem 4096-Bit-Speicherinterface antreten. Die Aufteilung in zwei Einzelchips hat für nVidia zuerst Fertigungs-technische Vorteile und ermöglicht daneben auch besser abgestufte Produkte. Der große Performance-Vorteil gegenüber der aktuellen "Hopper"-Generation ist hier allerdings noch nicht zu sehen, jener muß dann innerhalb der Architektur stattfinden. Auch dafür gibt es allerdings Vorbilder, denn "Hopper" selber hatte auch nicht besonders viel mehr Shader-Cluster gegenüber Gaming-Ampere (GA100) – bot aber trotzdem einen erheblichen Technik- wie Performance-Sprung.

Generation Fertigung Chip-Daten SM, FP32 Interface
nVidia GP100 Pascal 16nm TSMC 15,3 Mrd. Tr. auf 610mm² 60 SM, 3840 FP32 4096 Bit HBM2
nVidia GV100 Volta 12nm TSMC 21,1 Mrd. Tr. auf 815mm² 84 SM, 5376 FP32 4096 Bit HBM2
nVidia GA100 Ampere 7nm TSMC 54,2 Mrd. Tr. auf 826mm² 128 SM, 8192 FP32 6144 Bit HBM2
nVidia GH100 Hopper 4nm TSMC 80 Mrd. Tr. auf 814mm² 144 SM, 18'432 FP32 6144 Bit HBM2e/HBM3
nVidia GB100 Blackwell 3nm TSMC MCM 160 SM 8192 Bit

AMDs neuer Upscaler FSR3 startet nunmehr mittels "Forspoken" sowie "Immortals of Aveum", welche über entsprechende Patches dieses Feature aufbieten können. FSR3 stellt eine maßvolle Verbesserung von FSR2 dar, hinzu kommt das neue Feature der Zwischenbild-Erstellung mittels "AMD Fluid Motion Frames" (AFMF), welches äquivalent zu nVidias "Frame Generation" arbeitet. In Form von FSR3 kann AFMF auch auf AMD-fremder Hardware genutzt werden, offiziell unterstützt AMD alles ab GeForce RTX 20 oder Radeon RX 5000. Eingeschränkter ist der Support von AFMF, wenn es (ganz ohne FSR3) Treiber-basiert dem Spiel aufgezwungen werden soll: Der hierzu von AMD offerierte Preview-Treiber unterstützt derzeit nur Radeon RX 7000 Grafikkarten. Dafür ist der AFMF-Support wesentlich breiter, prinzipiell kann man es (auch ohne FSR-Support) für jedes DirectX-11/12-Spiel in den Spiel-eigenen Settings des Treibers erzwingen. Genau deswegen ist jener Treiber allerdings im Preview-Status, denn AMD erbittet hierzu die Rückmeldungen der Spieler-Gemeinde zum praktischen Funktionieren von AFMF.

Bei der letzten Tages-News ist zur Frage der Einordnung der RDNA4-Chips Navi 44 & 48 leider einiges daneben gegangen. Hierbei wurde fälschlicherweise die Anzahl der genannten WGP (32/20) als Anzahl an Shader-Cluster aufgefasst, was diese Grafikchips ins Mainstream-Segment geschickt hätte. Dem ist natürlich nicht so, denn da bei AMD eine WGP immer zwei Shader-Cluster enthält, beträgt die Anzahl an Shader-Clustern bei Navi 44 & 48 gemäß dieser Gerüchte-Meldung somit 64 bzw. 40 Shader-Cluster. Es bleibt natürlich bei den verhältnismäßig kleinen Speicherinterfaces bzw. der mageren Menge an Infinity Cache, womit keinerlei Ausbruch in wirklich hohe Leistungsregionen möglich ist. Aber zumindest das untere Midrange-Segment sollte AMD hiermit beackern können. Von der Anzahl der Shader-Cluster kommt Navi 48 der Radeon RX 7800 XT nahe, beim Speicherinterface (bestenfalls) der Radeon RX 7700 XT.

Ein Jahr später wird dies technologisch kaum noch jemanden noch vom Hocker reißen, AMD muß da wirklich über den Preispunkt kommen. Aber es ergibt wenigstens das Niveau einer zukünftigen Radeon RX 8700 Serie, klar oberhalb der gestern notierten Radeon RX 8600 Serie. Diese Korrektur ergeht mit ausdrücklicher Bitte um Entschuldigung für den schweren Lapsus in der gestrigen News, als die Hardware-Daten von Navi 44 & 48 falsch wiedergegeben wurden. Der Fehler wurde an selbiger Stelle bereits ausgebessert, wobei der falsche Absatz aus Dokumentationszwecken durchgestrichen weiterhin sichtbar bleibt. Sinngemäß hat AMD weiterhin eine große Lücke im zukünftigen Angebots-Portfolio stehen, denn mit 64 Shader-Clustern kommt man im Jahr 2025 nicht weit, wenn nVidia dann bereits bei mit 192 Shader-Clustern an der Leistungsspitze operiert. Aber jene Lücke sähe natürlich ganz anders aus, wenn AMD (fälschlicherweise) nur mit 32 Shader-Clustern anrücken würde.

RDNA1 RDNA2 RDNA3 RDNA4
Navi 31 (96 CU)
Navi 21 (80 CU)
Navi 48 (angbl. 64 CU)
Navi 32 (60 CU)
Navi 10 (40 CU) Navi 22 (40 CU) Navi 44 (angbl. 40 CU)
Navi 23 (32 CU) Navi 33 (32 CU)
Navi 14 (24 CU)
Navi 24 (16 CU)
Hinweis: geordnet nur nach Anzahl der Shader-Cluster, nicht nach Performance

Die vorstehende Tabelle zeigt allein die Anzahl der Shader-Cluster der jeweiligen RDNA-Chips und kann somit die vorgenannte Angebotslücke im zukünftigen RDNA4-Portfolio gut aufzeigen. Logischerweise ergibt sich aus der Anzahl der Shader-Cluster aber nur ein indirekter Hinweis auf die jeweilige Performance, sprich mittels Architektur-Verbesserungen benötigen spätere RDNA-Architekturstufen weniger Shader-Cluster für dieselbe Performance. Dieser Effekt ist gut zu sehen zwischen Navi 23 (32 CU) und Navi 10 (40 CU), wo der neuere Chip die Performance des älteren Chips trotz weniger Shader-Cluster (und kleinerem Speicherinterface) erreichen kann. Oftmals sind die Sprünge zwischen den RDNA-Architekturstufen aber nicht so groß wie in diesem Beispiel, denn selbiger Vergleich zwischen Navi 33 (32 CU) und Navi 22 (40 CU) funktioniert schon nicht mehr – die Radeon RX 6700 XT bleibt schneller als die Radeon RX 7600. Wie dies bei RDNA4 aussieht bzw. welchen Architektur-Sprung AMD hierbei mitbringt, bleibt natürlich abzuwarten.