26

Hardware- und Nachrichten-Links des 26. Mai 2021

Twitterer Kopite7kimi hat sein Hardware-Rätsel in Form des Tweets "2*(8*3*3*2?)" von Anfang Mai nunmehr aufgelöst – und dabei bestätigt, dass hiermit nVidias GH100-Chip aus der Hopper-Generation gemeint ist. Jener soll (pro Einzelchip) 8 Raster-Engines mitbringen, an welchem jeweils 9 Texture Processing Cluster (TPC) hängen, welche nVidia-üblich zwei Shader-Cluster enthalten – in der Summe also 144 Shader-Cluster pro Einzelchip. Eine gewichtige Änderung gegenüber dem bisherigen Chip-Aufbau bei nVidia ist eine neue Hardware-Unterteilung namens "CPC", die zwischen Raster-Engine und TPC angesiedelt ist, zu welcher dato aber noch kein ausgeschriebener Name (spekulativ "Compute Processing Cluster") bzw. ein Hinweis auf deren Funktionalität vorliegt. Gleichfalls ist natürlich einzurechnen, dass nVidia das ganze als DualChip-Kontrukt plant, die ausgelieferten Beschleuniger werden also über (bis zu) 288 Shader-Cluster verfügen.

A GPM of GH100 could have 8 (4*2, it seems like GA100) GPC * 9 Clusters (big changes, add CPCs).
perf: GH100=3XGA100

Quelle:  Kopite7kimi @ Twitter am 25. Mai 2021

Hieraus ergibt sich dann auch die zu lesende Performance-Angabe, wonach der komplette GH100-Chip (mit zwei Einzelchips und somit bis zu 288 Shader-Clustern) immerhin die dreifache Performance des aktuellen GA100-Chips (mit bis zu 128 Shader-Cluster) erreichen soll. Nominell sind dies nur +125% mehr an Hardware-Einheiten (für den ganzen GH100-Chip), der Rest des Sprungs zur dreifachen Performance (+200%) muß dann über bessere Chip-Auslastung, Architektur-Verbesserungen und höhere Taktraten zustandekommen. Nichtsdestotrotz ist dies ein extrem ambitioniertes Ziel, üblicherweise ist man selbst im HPC-Bereich schon mit einer Performance-Verdopplung bei einer neuen Chip-Generation (samt neuer Fertigung) zufrieden. Verschiedene Bemerkungen des Twitterers deuten allerdings an, dass mit dieser Performance-Aussage eher so etwas wie die Roh-Performance gemeint ist, sprich was man mit spezialisierten Benchmarks unter idealen Bedingungen erreicht – nicht jedoch die RealWorld-Performance.

Schlußfolgerungen auf Gaming-Chips derselben Generation sind aus diesem HPC-Projekt jedoch nur schwerlich zu treffen. Im Gaming-Bereich dürfte nVidia sicherlich (noch) nicht auf ein MultiChip-Design setzen – allerdings kann man die augenscheinlich (durch die 5nm-Fertigung) vorhandenen TDP-Reserven natürlich auch anderswie verbraten. Die bisher bekannte Ausgestaltungen von nVidias AD102-Chip mit 144 Shader-Clustern bringt schließlich schon einen Hardware-Sprung von +71% zum bisherigen GA102-Chip mit sich. Zuzüglich wiederum besserer Chip-Auslastung, Architektur-Verbesserungen und höheren Taktraten wäre auch ein höherer Sprung in der Rohleistung bei AD102 denkbar – wiederum nicht zu verwechseln mit der RealWorld-Performance. Jene wird gerade bei Gaming-Grafikchips auch von Faktoren bestimmt, welche nVidia nicht wirklich kontrollieren kann: Ausreichend CPU-Power und ausreichend Speicherbandbreite. Insbesondere letztere Frage dürfte nVidia drücken, denn bei der Interface-Größe will man sicherlich nicht weiter nach oben gehen.

Denn ein noch breiteres Interface frisst so viel zusätzlich an Strom, dass es die TDP-Reserven für die reinen Recheneinheiten substantiell nach unten drückt und somit den Chip in seiner Rechenkraft beschneidet. Es steht derzeit aber auch keine große Verbesserung bei Speichertaktraten oder aber eine neue Speichersorte (hypothetisch GDDR7) vor der Tür, um diese Sache in Form eines organischen Wachstums zu erledigen. Gut denkbar an dieser Stelle, dass der AD102-bezogene Tweet "And a larger cache" seitens Kopite7kimi nochmal eine größere Bedeutung bekommt, sprich dass sich nVidia eventuell an etwas ähnlichem wie AMDs "Infinity Cache" versucht. Ansonsten ist es schwer vorstellbar, wie nVidia den Sprung auf 144 Shader-Clustern mit einem angenommenen 384bittigen Speicherinterface für GDDR-Speicher mit ausreichend Speicherbandbreite versorgen will, um die viel höhere Rohleistung auch halbwegs äquadat in (viel) mehr RealWorld-Performance zu überführen.

Bei Hardware Unboxed @ YouTube thematisiert man die erheblichen Performance-Unterschiede zwischen verschiedenen B560-Mainboards für Intels Comet Lake & Rocket Lake Prozessoren. Jene setzen ganz augenscheinlich jeweils arg unterschiedliche Power-Limit-Einstellungen an, obwohl Prozessoren-Übertaktung auf diesem Intel-Chipsatz durch Intel gesperrt ist. Damit ergeben sich teilweise drastische Performance-Unterschiede unter wirklich Strom-fressenden Benchmarks wie dem Cinebench (bis zu +47%), unter Spielen ist der Effekt weitaus geringer (bis zu +14%) – und würde selbstverständlich noch kleiner ausfallen, wenn man die benutzte GeForce RTX 3090 standesgemäß unter der 4K-Auflösung laufen lassen würde. Schaltet man hingegen alle Stromverbrauchs-Limits im Mainboard-BIOS aus, kommt auch wieder eine nahezu gleichlautende Performance heraus (es gibt allerdings weiterhin Differenzen unter Dauerlast).

11400F @ CB23 11400F @ SotTR 11700 @ CB23 (no Limit) 11700 @ SotTR
MSI B560 Tomahawk 10156 136 fps 14176 (14176) 151 fps
Gigabyte B560M Aorus Pro 10192 135 fps 14151 (14151) 150 fps
Gigabyte B560M D3SH AC 8593 129 fps 10431 (14044) 140 fps
ASRock B560 Pro4 8545 128 fps 10368 (13965) 139 fps
MSI B560M Pro 7984 121 fps 9641 (13787) 132 fps
gemäß der Ausführungen von Hardware Unboxed @ YouTube

Problematisch an der (normalerweise) stark unterschiedlichen Performance ist aus Sicht des Mainboard-Käufers sicherlich der Punkt, dass man dies vor dem Kauf schwer herausfinden kann. Leider sind tiefgehende Mainboard-Tests heutzutage sehr unüblich geworden, die vorhandenen Tests streifen dieserart Fragen allerhöchstens bzw. können mangels vergleichende Benchmarks kein Gesamtbild aufbauen. Ironischerweise ist damit der Kampf der Mainboard-Hersteller um schnellstmögliche Platinen teilweise verlorene Liebesmüh – denn was nicht eingehend getestet wird, kann auch nicht als "schneller" identifiziert werden. Die Hersteller sind zudem aber auch arg geizig mit exakten Informationen – selbst wer sich tatsächlich einlesen wollte, wird bestenfalls von vielen Marketing-Begriffen erschlagen, erhält aber keine präzisen Angaben zu den vom Mainboard-Hersteller gesetzten Standard-Einstellungen bzw. deren Bedeutung & Auswirkungen. In der Praxis erhält der Mainboard-Käufer in Bezug auf die default-Performance der erstandenen Platine somit eine Wundertüte. Es ist zu hoffen, dass jedes Board auch tatsächlich die zwei wichtigsten BIOS-Einstellungen anbietet: Betrieb vollkommen nach Intel-Spezifikation – und Betrieb ohne jede Power-Limits.