18

News des 18. März 2024

nVidia hat mittels der GTC-Keynote seine nächste HPC-Generation "Blackwell" vorgestellt, welche primär enorme Vorteile bei der KI-Beschleunigung mitbringen soll. Wie üblich konzentrierten sich die nVidia-Ausführungen dabei auf die konkreten Produkte B100, B200 und GB200, womit es schwierig war, Informationen zu den zugrundeliegenden Chips zusammenzuklauben. Jener augenscheinliche "GB100"-Chip besteht aus zwei Einzelchips mit jeweils 104 Mrd. Transistoren auf jeweils ~800mm² Chipfläche (Hopper GH100: 80 Mrd. Tr. auf 814mm²). Interessanterweise läuft dies alles unter TSMCs 4nm-Fertigung in wahrscheinlich der N4P-Ausbaustufe ab – und damit nur leicht besser als in der vorherigen Hopper-Generation (zu "4N" umbenannte 5nm-Fertigung). Dies stellt eine starke Überraschung dar, denn bislang wurde gerade "HPC-Blackwell" als eigentlich narrensicherer Kandidat für TSMCs 3nm-Fertigung angesehen.

    nVidia GB100

  • nVidia Blackwell-Architektur
  • bestehend aus zwei Einzelchips  (angeblicher Einzel-Codename: GB102)
  • 2x 104 Mrd. Transistoren in TSMC "4NP"  (wahrscheinlich umbenannte TSMC N4P Fertigung)
  • 2x ~800mm² Chipfläche
  • unbekannte Ausrüstung mit GPC, TPC, SM, etc.  (vorherige Gerüchte sagen 160 SM für den vollen Chip)
  • interner Die-to-Die-Interconnect mit 10 TB/sec
  • 2x 4096-bit HBM3e-Interface für max. 192 GB Speicher
  • PCI Express 6.0
  • NVLink5 mit gegenüber "Hopper" doppelter Bandbreite
  • Produkte: "B100" auf 700W TDP, "B200" auf 1000W TDP, "GB200" mit zwei GB100-GPUs, einer "Grace" CPU und extra "NVLink Switch 7.2T" auf 1200-2700W TDP
  • Steigerung der Tensor-Power auf den Faktor x2,5 zwischen H100 und B200  (bei TDP 700W → 1000W)
  • (bislang) keine weiteren belastbaren Performance-Angaben
  • Unterstützung der neuen Rechenformate FP6 und FP4
  • Auslieferungstermin wurde nicht genannt  (anzunehmen: Jahresende)

Da jene 3nm-Fertigung nun doch nicht angesetzt wurde, musste nVidia den nahezu doppelten Silizium-Einsatz gehen, hierfür wurden die beiden Einzelchips mit einem hochwertigen Die-to-Die-Interconnect mit 10 TB/sec Bandbreite verbunden. Betrachtet man die einzige belastbare Performance-Angabe mit der 2,5fachen Tensor-Performance unter diesem Licht, so stellt sich HPC-Blackwell fast wie eine "SLI-Version von Hopper" zuzüglich weiterer Verbesserungen dar. Dafür spricht auch, dass jene 2,5fache Tensor-Performance wohl im unfairen Duell von 700W gegen 1000W erzielt wurde, eine Performance-Angabe auf gleicher TDP hat nVidia unterlassen. Intern dürfte dies wahrscheinlich alles ganz anders aussehen – was sich derzeit nicht solide beurteilen läßt, denn nVidia geizte mit genauen Angaben zum Aufbau des GB100-Chips. Möglich natürlich, dass die bisherigen Grafikchip-Merkmale bezüglich GPC, TPC & SM für einen HPC/KI-Chip wie "GB100" nicht mehr die große Rolle spielen, nVidia sich davon löst bzw. andere Schwerpunkte setzt.

Generation Fertigung Chip-Daten SM, FP32 Interface
nVidia GP100 Pascal 16nm TSMC 15,3 Mrd. Tr. auf 610mm² 60 SM, 3840 FP32 4096 Bit HBM2
nVidia GV100 Volta 12nm TSMC 21,1 Mrd. Tr. auf 815mm² 84 SM, 5376 FP32 4096 Bit HBM2
nVidia GA100 Ampere 7nm TSMC 54,2 Mrd. Tr. auf 826mm² 128 SM, 8192 FP32 6144 Bit HBM2
nVidia GH100 Hopper 5nm TSMC 80 Mrd. Tr. auf 814mm² 144 SM, 18'432 FP32 6144 Bit HBM2e/HBM3
nVidia GB100 Blackwell 4nm TSMC 2x 104 Mrd. Tr. auf 2x ~800mm² 160 SM (?) 8192 Bit HBM3e

Hierzu gehört in jedem Fall die Unterstützung der Rechenformate FP6 und FP4, mittels welchem nochmals höhere Geschwindigkeiten bei der KI-Beschleunigung zu erwarten sind. Demzufolge ist das, was sich hieraus auf "Gaming-Blackwell" applizieren läßt, eigentlich minimal – bis natürlich auf das Thema der Chipfertigung. Denn wenn nVidia keinen 3nm-Node für HPC-Blackwell ansetzt, ist dies für Gaming-Blackwell nunmehr ebenfalls sehr fraglich. Eine verbesserte 5nm-Fertigung auch bei Gaming-Blackwell würde daneben "gut" zu dessen geringem Hardware-Sprung passen. Allerdings wären damit dann auch die Möglichkeiten zur Taktraten-Steigerung, wesentlich mehr Transistoren für Architektur-Verbesserungen und letztlich die insgesamte Performance-Steigerung limitiert. Denn mit doppeltem Silizium-Einsatz wird nVidia bei Gaming-Blackwell sicherlich nicht antreten, dies läßt sich nur bei den Margen des HPC/KI-Geschäfts vertreten.

Konsolen-Insider Tom Henderson hat auf 'Insider Gaming' in zwei Berichten – No.1 & No.2 – bezüglich der Hardware-Gestaltung der PlayStation 5 Pro nachgelegt bzw. neue Details offenbart. So ist die CPU der PS5Pro entgegen bisherigen Angaben komplett gleich zur regulären PS5, sprich Zen-2-basierter Achtkerner mit bis zu 3.5 GHz Taktrate. Neu ist hier nur ein "High CPU Frequency Mode", welcher TDP von GPU zu CPU verschiebt, womit jene auf maximal 3.85 GHz takten kann, dies allerdings unter dem Verlust von ca. 1% GPU-Performance. Zudem wird die PS5Pro-GPU nunmehr fest mit 60 Shader-Clustern beschrieben, der zugrundliegende Chip dürfte demzufolge auf 64 Shader-Cluster kommen (traditionell werden bei Spielekonsolen aus Ausbeutegründen nicht alle Shader-Cluster freigeschaltet). Zugleich ergibt sich auch noch die Festplatten-Größe der PS5Pro mit 1 TeraByte.

PS5 "Digital Edition" PlayStation 5 PlayStation 5 Pro
Fertigung 7nm TSMC 4nm TSMC
Prozessor 8C/16T Zen 2 @ ≤3.5 GHz 8C/16T Zen 2 @ ≤3.85 GHz
Grafiklösung 36 CU RDNA2 @ ≤2.23 GHz (≤10,3 TFlops) 60 CU RDNA3.5 @ ≤2.2 GHz (≤16,7 TFlops) *
KI-Beschleuniger keiner 300 TOPs (8bit)
Speicherinterface 256 Bit GDDR6 @ 14 Gbps (448 GB/sec) 256 Bit GDDR6 @ 18 Gbps (576 GB/sec)
Speicherausbau 16 GB GDDR6 16 GB GDDR6 + extra DDR5 (letzteres unsicher)
Festplatte 825 GB NVMe-SSD @ 5,5 GB/sec (8-9 GB/sec mit Kompression) 1 TB NVMe-SSD
Laufwerk keines 4K UHD BluRay ?
Upscaler FSR1/2 FSR1-3, PSSR
Listenpreis $400 / 400€
ab Aug 2022: 450€
$500 / 500€
ab Aug 2022: 550€
(angbl.) $500
Release 12. November 2020 (Europa: 19. Nov.) November 2024
Vorstellung September 2024
Hinweis: Angaben zu noch nicht offiziell vorgestellter Hardware basierend auf Gerüchten & Annahmen — * FP32 gerechnet ohne RDNA3 Dual-Issue

Und letztlich gab es noch eine bedeutsame Bemerkung zur RayTracing-Hardware der PS5Pro, welche auch deren drastische Steigerung der RayTracing-Performance erklären läßt: Denn während die originale PS5 RayTracing im BVH4-Format abarbeitet, beherrscht die PS5Pro bereits BVH8, ergo eine Shader- und Takt-normierte Durchsatz-Verdopplung. Zusammen mit der höheren Anzahl an Shader-Clustern sind die von Sony genannten RayTracing-Performancegewinne (auf das 2-3fache) somit durchaus machbar, wenn auch wohl nur auf den RayTracing-Part der Grafik bezogen (sprich der insgesamte Performance-Gewinn ist geringer). Zudem ergibt sich hieran auch eine Bedeutung für PC-Grafikkarten: Denn jenes BVH8-Format sollte dann auch Teil der RDNA4-Architektur sein – und somit die RayTracing-Abarbeitung auf der kommenden Radeon RX 8000 Serie bedeutsam beschleunigen. All dies war bereits vermutet worden, aber eine technisch untermauerte Bestätigung ist natürlich immer besser als reine Vermutungen.

BVH8 is interesting, not only confirms PS5 Pro is using RDNA4's RT engine but also confirms RDNA4 doubles RT throughput per cycle, something which hasn't been mentioned in any open source patch yet!
Quelle:  Kepler @ Twitter am 17. März 2024

VideoCardz berichten über den neuesten Streich des Hardware-Modder-Teams um Paulo Gomez, welche eine Radeon RX 5600 XT auf ein größeres Speicherinterface und gleich 16 GB Speicher umgebaut haben. Insbesondere ersterer Punkt ist beachtenswert, denn das reine Umlöten von Speicherbausteinen ist in Modder-Kreisen nun nichts besonderes mehr. Hier hat man allerdings der Radeon RX 5600 XT, welche eigentlich nur mit einem 192-Bit-Speicherinterface antritt, mittels BIOS-Mod das volle 256-Bit-Interface des zugrundeliegenden Navi-10-Chips entlocken können. Ausgangslage ist aber natürlich auch der Punkt, dass einige Radeon RX 5600 XT Grafikkarten mit Platinen anrücken, die bereits für 8 Speicherchips ausgelegt und verdrahtet sind, sprich auch für eine (regulär 256bittige) Radeon RX 5700 /XT Verwendung finden könnten.