17

News des 16./17. September 2023

Die PC Games Hardware zitiert eine Aussage seitens der Marktforscher von Omedia, wonach nVidia im zweiten Quartal ca. 300'000 H100-Beschleuniger verkauft haben soll. Die originale Meldung bezieht sich dabei auf das wortwörtliche Gewicht dieser Lieferungen, welche (mehr als) 900 Tonnen umfassen und somit denkbarerweise aus einer Statistik von Frachtunternehmen stammt. Die Menge hört sich angesichts der Stückpreise von fertigen H100-Beschleunigern im fünfstelligen Bereich natürlich gewaltig an – und ermöglicht auch einen Vergleich der für HPC- und Gaming-Zwecke seitens nVidia verwendeten Waferflächen. Denn trotz dass diese 300'000 HPC/AI-Beschleuniger einen gewaltigen Wert darstellen, belegen jene wahrscheinlich nur ca. 6000 Stück an 300mm-Wafern.

Volumen Q2'23 Die-Size Wafer-Menge
nVidia H100 angbl. 300'000 814mm² (5nm) ca. 6000
nVidia Gaming-GPUs 11,1 Mio. 160-630mm² (5/8nm) ca. 45-60k
Wafer-Mengen kalkuliert mit 90% Yield bei allen Gaming-Chips sowie 80% Yield bei GH100

Jene Menge könnte noch steigen, wenn die Fertigungsausbeute deutlich niedriger als 80% ist (bei 60% Yield wären es ca. 8000 Wafer). Allerdings ist nicht klar, wie gut nVidia die reale Fertigungsausbeute nach Abzug der Salvage-Lösungen im Griff hat. Denn beim Stichwort "Yield" wird meistens die ideale Fertigungsausbeute angegeben, sprich diese Chips, welche alle Grundtests bestehen und gleichzeitig keine Fehler in irgendwelchen Ausführungseinheiten aufweisen. Um letzteres auszugleichen, benutzen die Chip-Entwickler jedoch umfangreiche Salvage-Lösungen – und im Fall des GH100-Chips gibt es dann gar nichts anderes, der H100-Beschleuniger benutzt nur 92% der Shader-Cluster sowie 83% des Speicherinterfaces vom zugrundeliegenden GH100-Chip. Einzelne Silizium-Fehler dürfte nVidia damit problemlos ausgleichen und den "realen Yield" somit deutlich oberhalb des nominellen Yields anheben können.

Aber egal ob man mit 6000 oder 8000 Wafern für H100-Beschleuniger kalkuliert: Die Wafer-Menge für diese HPC-Lösung ist nach wie vor deutlich unterhalb jener Wafer-Menge, welche nVidia für Gaming-Grafikchips aufwendet – schätzungsweise 45-60'000 Wafer pro Quartal. Wegen der unbekannten durchschnittlichen Chipgröße kann es hierzu keinen genaueren Wert geben, aber der große Unterschied ist auch so deutlich sichtbar. Leider ist diese Rechnung nicht ganz vollständig, bedingt durch nVidias noch laufende Aufträge für Ampere-basierte HPC-Beschleuniger hat – oder aber das unklar ist, ob die vorstehende Zahl an H100-Beschleuniger auch H180-Modelle (Abwandlung für China, basierend auf demselben GH100-Chip) beinhaltet. Alle diese Unsicherheitsfaktoren ändern jedoch nichts am klaren Dimensionsunterschied in der benötigten Wafer-Menge für nVidias HPC- und für Gaming-Chips.

Und dies wiederum bedeutet: Die HPC-Chips haben noch deutlich Luft zum wachsen – und dies auf dem Stand des zweiten Quartals 2023, wo nVidias HPC-Geschäft schon regelrecht explodiert ist. Jene 6000 Wafer sind eine gute Menge, aber auch wieder nichts, was einen Großfertiger wie TSMC wirklich ins Schwitzen bringen würde. Und wenn alle Stricke reißen sollten und nVidia allein innerhalb des eigenen Wafer-Kontingents umschichten kann: Selbst nochmals 50% mehr H100-Beschleuniger würde nVidia bei rein interner Umschichtung bestenfalls ca. 10% seiner Gaming-Grafikchips kosten. Dies wäre nicht schön und würde sicherlich zu Verknappungen an Ada-Lovelace-Grafikchips führen, ganz besonders wenn der PC-Markt wieder anzieht. Doch mit dem Mehrbedarf des Cryptomining-Hypes ist dies kaum vergleichbar: Dort lag der Überbedarf bei mindestens 3 Mio. Grafikchips pro Quartal, resultierend in einem zusätzlichen Bedarf von ca. 15'000 Wafern.

Jene 3 Mio. Grafikchips sind dabei nur diese (zusätzliche) Menge, mittels welcher sich der Grafikkarten-Markt anno 2022 langsam wieder beruhigte. Der kurzfristige Überbedarf in Zeiten des heißen Cryptomining-Hypes im Frühling 2021 (mit dreifachen Grafikkarten-Preisen) dürfte wohl erheblich höher gelegen haben. Doch selbst dieser massive Überbedarf wäre denkbarerweise zu schultern gewesen, wenn nicht bedingt durch Corona-Pandemie und HomeOffice-Boom gleichzeitig auch an allen anderen Fronten mehr IT-Gerätschaften und damit mehr Chips zu produzieren waren. In der heutigen Situation, welche für den Augenblick kein solches Zusammentreffen von zwei großen Wellen gleichzeitig sieht, kann man somit sagen: Fertigungs-technisch dürfte noch Luft für wirklich viel mehr HPC-Beschleuniger sein. Es verbleibt hier sicherlich immer ein Restrisiko, aber derzeit kann man die Situation als beherrschbar ansehen. Mittelfristig steht zudem eine erhebliche Entlastung durch jene neuen Chipfabriken an, deren Bau in der Chip-Krise anno 2021 angesetzt wurde.

Hardware Busters vermelden die offizielle Spezifizierung der Änderungen am 12VHPWR-Stromstecker in Form der neuen Normen ATX 3.1 und PCIe CEM 5.1. Jene beinhalten die schon angekündigten Änderungen, welche eigentlich erst Teil von PCI Express 6.0 sein sollten, nun aber faktisch bereits unter dem (inoffiziellem) Stichwort "PCI Express 5.1" laufen können. Offiziell läuft der neue Stecker unter der Bezeichnung "12V-2×6", worauf man dann somit bei zukünftigen Grafikkarten schauen kann. Inoffiziell haben die Adapter-Hersteller schon vor einiger Zeit diverse kleine Änderungen am bekannten 12VHPWR-Stecker umgesetzt, zu erwähnen besonders die tiefer sitzenden Signal-Pins, womit ein nicht perfekter Steckkontakt die Stromzufuhr automatisch limitiert. In der Praxis sind nahezu alle entsprechenden Vorfälle mit 12VHPWR-Adaptern der GeForce RTX 4090 zuzuordnen und nach großer Thematisierung in diesem Frühjahr dann auch spürbar in der Anzahl zurückgegangen.

Bei Puget Systems hat man einen PCIe-Skalierungstest für Content Creation aufgelegt – sprich, abseits der ansonsten üblichen Tests mit PC-Spielen. Hierbei ergaben sich zwei klare Erkenntnisse, welche auf AMD- wie nVidia-Hardware gleichlautend gelten: In den Feldern von Rendering und Stable Diffusion (AI-Bildgenerator) spielt die PCIe-Anbindung keine wirkliche Rolle, selbst PCI Express 3.0 mit nur 4 Lanes läuft hier noch vernünftig (bei AMD perfekt, bei nVidia mit kleinem Performance-Abschlag). Im Feld von "Video Editing / Motion Graphics" gibt es hingegen eine beachtbare bis große PCIe-Skalierung, bis hin zu Abschlägen von ca. –25% unter PCI Express 3.0 mit nur 4 Lanes. Allerdings gibt es kleinere Abschläge auch schon davor, dieser Anwendungs-Bereich ist also generell von der PCIe-Bandbreite abhängig – und sollte somit immer bestmöglich versorgt werden.

PCI-Express-Skalierung 4.0 x16 4.0 x8 4.0 x4 3.0 x16 3.0 x8 3.0 x4
GeForce RTX 4080 – Video Editing / Motion Graphics 100% 97,8% 88,6% 97,3% 88,2% 74,6%
GeForce RTX 4080 – Rendering 100% 99,6% 98,5% 99,2% 98,1% 95,8%
GeForce RTX 4080 – Stable Diffusion 100% 99,3% 96,7% 99,3% 98,8% 97,3%
Radeon RX 7900 XTX – Video Editing / Motion Graphics 100% 97,4% 89,9% 97,8% 89,6% 77,8%
Radeon RX 7900 XTX – Rendering 100% 101,8% 100,8% 101,5% 100,8% 100,9%
Radeon RX 7900 XTX – Stable Diffusion 100% 102,1% 99,1% 97,3% 93,3% 99,1%
gemäß der Ausführungen von Puget Systems