19

News des 19. März 2024

Laut Twitterer Kopite7kimi wird "Gaming-Blackwell" den gleichen TSMC-Node benutzen wie "HPC-Blackwell", ergo augenscheinlich TSMCs N4P (in der nVidia-Variante als "4NP" laufend). nVidia wird somit diese komplette Chip-Generation noch unter einer 4nm-Fertigung auflegen, auch die seitens 'RedGamingTech' vermeldete (angebliche) Samsung-Fertigung von GB206 & GB207 wird somit wieder wahrscheinlicher (da nunmehr nicht mehr besonders abweichend von TSMC N4P). Generell haben sich alle Leaker somit bezüglich der Node-Auswahl bei "Blackwell" maßgeblich geirrt – was dann auch Auswirkungen auf die jeweils erreichbare Performance hat. Zwar hat nVidia durchaus eine beachtbar höhere Transistoren-Dichte beim GB100-Chip erreicht (130 Mio. Transistoren per mm², gegenüber 98 Mio. Transistoren per mm² bei GH100), die Möglichkeiten eines Fullnode-Sprungs sind jedoch erheblich größer.

GB202 will use the same process node as GB100. I must clarify once again that TSMC 4N(vidia) is based on TSMC 5, not 4nm.
I'm sorry I cannot match Jensen's naming with TSMC's naming. We need professional chip analysis to determine.
At least, there is a 30% increase in density.

Quelle:  Kopite7kimi @ Twitter am 19. März 2024

Im Consumer- bzw. Gaming-Segment kommt hinzu, dass man dort (aus Kostengründen) nicht einfach mit der doppelten Silizium-Menge antritt, selbst wenn dies vielleicht technisch möglich wäre. nVidia wird somit bei "Gaming-Blackwell" stark haushalten müssen, der Anstieg bei der Transistoren-Menge ist eng limitiert und muß für mehr Hardware-Einheiten sowie weitere Architektur-Verbesserungen reichen. Dies macht die zuletzt kolportierten Hardware-Daten zu Gaming-Blackwell nochmals wahrscheinlicher, welche Steigerungen in der Anzahl der Shader-Cluster von nur +7% bis +33% sehen. So etwas läßt sich sicherlich bei einer (grob) 30%ig höheren Transistoren-Dichte (der konkrete Wert kann bei Gaming-Blackwell auch leicht darunter liegen) gut unterbringen, ohne die Chipfläche deutlich aufzuplustern. Viel mehr darf man dann allerdings nicht erwarten, die nachfolgend genannten Hardware-Daten dürften gerade unter der 4nm-Fertigung durchaus zutreffend sein.

Raster-Engines Shader-Cluster Speicherinterface max. Speicher Ada-Vorgänger SM vs Vorg.
GB202 angbl. 12 angbl. 192 angbl. 512 Bit 32 GB AD102: 12 GPC, 144 SM, 384 Bit, 24 GB GDDR6X +33%
GB203 angbl. 6 angbl. 96 angbl. 256 Bit 16 GB AD103: 7 GPC, 80 SM, 256 Bit, 16 GB GDDR6X +20%
GB205 whrschl. 4 whrschl. 64 angbl. 192 Bit 12 GB AD104: 5 GPC, 60 SM, 192 Bit, 12 GB GDDR6X +7%
GB206 whrschl. 3 möglw. 42 oder 48 whrschl. 128 Bit 8/16 GB AD106: 3 GPC, 36 SM, 128 Bit, 8 GB GDDR6 +17/33%
GB207 whrschl. 2 möglw. 28 oder 32 96 oder 128 Bit 6-16 GB AD107: 3 GPC, 24 SM, 128 Bit, 8 GB GDDR6 +17/33%
Hinweis: Angaben zu noch nicht offiziell vorgestellter Hardware basieren auf Gerüchten & Annahmen ... "max. Speicher" bezogen auf 2GByte-Chips

Problematisch ist an der 4nm-Fertigung vor allem, dass hiermit kaum eine Fantasie bezüglich großer Taktraten-Steigerungen sowie großer Architektur-Zuwächse gegeben ist. Für beides bräuchte man eher einen neuen Fullnode als nur eine Verbesserung der 5nm-Fertigung. Eine gewisse mittlere Taktraten-Steigerung ist natürlich möglich, nVidia ist bekannterweise gut darin, auf ähnlicher Fertigung doch noch so einiges herauszuholen (siehe Maxwell- und Turing-Architekturen). Bei den reinen Architektur-Verbesserungen bleibt abzuwarten, wieviel da möglich ist – aber das ganz große Transistoren-Budget hierfür fehlt letztlich. Nichtsdestotrotz verspricht Kopite7kimi zumindest mehr Level1-Cache in den Shader-Clustern, resultierend in einer IPC-Steigerung innerhalb der Shader-Cluster. Dies stellt aber auch nur eine von vielen möglichen Maßnahmen dar, was noch nichts über die gesamte Schlagkraft der Architektur von Gaming-Blackwell aussagt.

Just look at the L1 Cache of one SM, GB202 definitely has a significant improvement compared to AD102 and GA102(128 KB). It means the throughout of a single SM will increase.
Quelle:  Kopite7kimi @ Twitter am 19. März 2024

Denkbar letztlich, dass nVidia gezwungen ist, für Gaming-Blackwell eine unliebsame Reserve zu aktivieren – die des (höheren) Stromverbrauchs. Wenn sich eine neue Chip-Generation auf gleicher Fertigung von der vorherigen Chip-Generation absetzen soll, geht dies fast nur über den Weg eines Mehrverbrauchs – die große Ausnahme in Form der Maxwell-Architektur dürfte eine (einmalige) Ausnahme bleiben. Je mehr Transistoren und Hardware-Verbesserungen nVidia somit für Gaming-Blackwell aufbietet, um so höher ist die Chance auf einen steigenden Stromverbrauch. Die Grundlage hierfür ist schließlich mit der Konzeption der GeForce RTX 4090 FE sowie des 12VHPWR-Stromadapters auf bis zu 600 Watt Stromverbrauch bereits gelegt. nVidia muß diese Möglichkeiten bei der GeForce RTX 50 Serie nicht gleich komplett ausnutzen, aber aufgrund der Ausgangslage wäre es einigermaßen verwunderlich, wenn die nachfolgende nVidia-Generation ohne gewisse TDP-Steigerungen auskommt.

Zu nVidias HPC-Blackwell sei noch zu sagen, dass sich auf Reddit inzwischen eine Auflistung ergibt, welche die bekannten Unterschiede zwischen den verschiedenen Blackwell-basierten Produkten notiert. Noch fehlend hierin sind Angaben der tatsächlich jeweils verbauten Recheneinheiten sowie der gewöhnliche Rechenpower außerhalb der Tensor-Kerne. Daten zur Chip-Ebene sind derzeit weiterhin fehlend – eventuell ergibt sich dies mittels eines White Papers zu "Blackwell", dessen Veröffentlichung demnächst anstehen soll. Erwähnenswert sind zudem Twitter-Angaben seitens Barrons-Analyst 'Tae Kim' zu Kostenlage, Abgabepreis und Entwicklungskosten bei "Blackwell": Die Herstellung eines "B200" soll demnach 6000 Dollar kosten, der Abgabepreis liegt bei 30-40'000 Dollar (H100: Kostenlage $3320, Abgabepreis $25-30k). Hiermit müssen dann auch die enormen Entwicklungskosten beglichen werden, welche sich nach der Arbeit von 25'000 Mitarbeitern über 3 Jahre hinweg auf 10 Mrd. Dollar aufsummieren.

Blackwell cost $10 billion to develop. Good luck to the AI chip startups!
Quelle:  Tae Kim @ Twitter am 19. März 2024
 
... he said 25,000 people over 3 years.
Quelle:  Patrick Moorhead @ Twitter am 19. März 2024
 
Raymond James estimates it will cost Nvidia more than $6,000 to make a B200 and they will price the GPU at a 50-60% premium to H100. Nvidia has not disclosed pricing.
Quelle:  Tae Kim @ Twitter am 19. März 2024
 
Jensen told CNBC this morning a Blackwell GPU will cost $30,000 to $40,000
Quelle:  Tae Kim @ Twitter am 19. März 2024

Ob hier auch Gaming-Blackwell mit eingerechnet wurde, darf vermutet werden, dürfte aber sowieso den kleinsten Anteil ergeben. Dies ist vor allem ein Fingerzeig an die Startups in diesem Feld, dass die Klasse der nVidia-Beschleuniger keineswegs so einfach einzuholen sein wird. Jene Startups haben wohl nur eine Chance, wenn sie einen technologisch gänzlich anderen Weg gehen als nVidia, denn dasselbe wie nVidia zu bauen bedingt einfach eine zu enorme (vorherige) Investitionssumme. Nichtsdestotrotz hat der Markt an AI-Beschleunigern wegen allgemein endlicher Produktionsmengen sowie nVidias Hochpreis-Ansatz durchaus Platz für andere Anbieter, AMDs Instinct MI300X kostet beispielsweise "nur" 15'000 Dollar. Interessant wird es dann werden, wenn die Chiphersteller ihre Packaging-Fertigung ausgeweitet haben und damit dann deutlich mehr liefern können. Dann kann es durchaus passieren, dass es sogar im Feld der KI-Beschleuniger zu einem Überangebot und nachfolgend Preiswettbewerb kommt. Derzeit ist allerdings nicht klar, wann dieser Zeitpunkt erreicht sein könnte.

AMD zeigt auf seinem Portal GPUOpen eine Demonstration von "GPU Work Graphs" als zukünftigem DirectX-Feature. Hierbei wird verkürzt gesagt weitere Arbeit von der CPU zur GPU verschoben, um damit den Flaschenhals der CPU-Performance zu verringern. In der von AMD hierzu aufgelegten Demo gelingt dies mit einer um –39% kürzeren Renderzeit auch sehr gut. Wie üblich dürfte gelten, dass man sich für derart Demonstrationen eher denn BestCases heraussucht, sowohl bei der Darstellung selber als auch dem technischen Ansatz. Unter realen PC-Spielen dürfte der Effekt drastisch niedriger ausfallen, da höhere Auflösungen doch als weitgehend frei von Einflüssen der CPU-Performance gelten. Interessant dürfte "GPU Work Graphs" somit eher für die FullHD-Darstellung auf besonders leistungskräftigen Grafikkarten sein, dort ergibt sich inzwischen (mit jeder Grafik-Generation um so deutlicher) ein starker CPU-Einfluß auf die Performance. Ob das Feature somit jemals eine besonders breite Wirkung entfallen kann, darf jedoch bezweifelt werden – aber es ist natürlich ein weiteres Bausteinchen zugunsten einer generellen Performance-Steigerung.

Die PC Games Hardware zitiert Aussagen seitens 'Moore's Law is Dead', wonach Intels "Arrow Lake" terminlich ziemlich im Hintertreffen sei, nachdem es "Qualification Samples" der nächsten Intel-Prozessoren erst im Oktober geben soll. Andererseits ist damit ein Marktstart vor Jahresende 2024 keineswegs verbaut – es wird knapp und Herbst-Termine scheiden aus, aber unmöglich ist die Sache nicht. Zu beachten wäre auch, dass Intel für einen solchen Launch nur eine limitierte Fertigungsmenge benötigt, denn der Launch wird nicht mit den Massenmarkt-Produkten der non-K-Serie sowie den Mobile-Prozessoren begangen, sondern eben nur mit (wenigen) K-Modellen für das Enthusiasten-Segment. Sollte Intel dies nicht mehr im Jahr 2024 schaffen, wäre dies natürlich ein Rückschlag. An der grundsätzlichen Abfolge, dass AMDs Zen 5 ein paar Monate vor Intels Arrow Lake antritt, würde dies allerdings nichts ändern, diesen Zeitvorsprung hat AMD (sofern es dort plangemäß läuft) sowieso.