15

News des 15. Januar 2025

Mehrere Webseiten berichten von nVidias "Editor's Day" zur GeForce RTX 50 Serie bzw. bringen entsprechende Artikel mit mehr Hintergründen zu "Gaming-Blackwell" – so ComputerBase, Hardwareluxx, PC Games Hardware und TechPowerUp. Jene Artikel enthalten bei ComputerBase und Hardwareluxx auch eine Auswertung der dabei gezeigten, neuen nVidia-erstellten Benchmarks ganz ohne Frame Generation. Diese beziehen sich dann zwar wieder nur auf zwei Spiele-Titel (RE4 & Horizon FW) und wurden wiederum teilweise mit RayTracing und teilweise mit DLSS aufgenommen, aber es fehlt halt das Frame-Generation-Feature, welches ansonsten mittels seiner MFG-Ausführung für den großen Unterschied in den offiziellen Benchmarks zwischen den GeForce RTX 40 und 50 Serien sorgt. Ohne Frame Generation sieht es dagegen sehr irdisch aus, was nVidia mit der GeForce RTX 50 Serie zu bieten hat:

Rohleist./Bandbr./TDP 3DC-Prognose neue NV-Werte
GeForce RTX 4090 → 5090 +27%/+78%/+28% +34-41% ~ +30-33%
GeForce RTX 4080 → 5080 +16%/+34%/+13% +16-22% ~ +15%
GeForce RTX 4070 Ti → 5070 Ti +9%/+78%/+5% +20-27% ~ +20%
GeForce RTX 4070 → 5070 +6%/+33%/+25% +19-29% ~ +20%
Datenquellen: 3DC Performance-Prognose & Auswertung der neuen nVidia-Benchmarks bei ComputerBase & Hardwareluxx

Bis auf die GeForce RTX 5090, welche mit (grob) +30-33% Performance-Gewinn zur GeForce RTX 4090 eingeschätzt wird, sind die anderen Zuwächse innerhalb der GeForce RTX 50 Serie eher mager – und hierbei wurde auch immer zum initialen RTX40-Portfolio verglichen, gegenüber den jeweiligen "SUPER"-Modellen werden die Zuwächse nochmals erheblich zurückgehen. Prinzipiell ist das ganze auf einer Linie mit der 3DCenter Performance-Prognose zur GeForce RTX 50 Serie, allerdings fällt auf, dass die neuen nVidia-Werte allesamt am unteren Ende dieser Prognosen herauskommen. In letzter Zeit haben die Hersteller üblicherweise eher am oberen Ende der 3DC-Prognosen gelegen oder diese gar geschlagen – insofern ist dies doch bemerkenswert. Es bleibt zu hoffen, dass im Schnitt der kommenden Benchmarks sich da noch ein besseres Bild einstellt. Sicherlich kann sich die GeForce RTX 50 Serie jederzeit sehr erheblich mittels "Multi Frame Generation" von allen anderen Grafikkarten absetzen, aber MFG ist am Ende nur die Sahne auf die Kirsche, kann keinen gleichwertigen Ersatz für echte Grundperformance ganz ohne Frame Generation und Upscaler darstellen.

Daneben ergeben sich aus jenen Artikeln zu nVidias Editor's Day auch zwei neue Informationen zu technischen Änderungen der "Blackwell" Grafikchip-Architektur: Jene entspricht wohl weitgehend dem Aufbau von "Ada Lovelace", wirklich groß ist der Sprung gerade bei konventioneller Betrachtung nicht. Allerdings hat nVidia die Shader-Cluster in dieser Form umgearbeitet, als dass nun alle Shader-Kerne sowohl FP32 als auch INT32 berechnen können, der maximale Durchsatz bei INT32-Berechnungen steigt somit von 64 auf 128 INT32 pro Shader-Cluster. Es ist bei Blackwell auch eine gemischte Ausführung von FP32 und INT32 möglich, unklar ist allerdings noch, ob dies fest auf 64x FP32 + 64x INT32 limitiert ist oder auch andere Aufteilungen des maximalen Durchsatzes von 128 Rechenoperationen pro Shader-Cluster möglich sind. Für Spiele dürfte diese Änderung kaum eine Auswirkung haben, da dort eher FP32-Code als INT32-Code vorliegt. Genauso dürfte die praktische Auswirkung des neuen Rechenformats FP4 bei den Tensor-Kernen gering sein, selbiges wird eher denn im KI-Bereich verwendet.

Pascal Turing Ampere Ada Lovelace Blackwell
reine FP32-Einheiten pro SM 128 64 64 64 -
reine INT32-Einheiten pro SM - 64 - - -
Dual-Use FP32/INT32-Einheiten pro SM - - 64 64 128
max. FP32-Einheiten pro SM 128 64 128 128 128
max. INT32-Einheiten pro SM - 64 64 64 128
max. FP32/INT32-Einheiten pro SM (= max. Durchsatz) 128 128 128 128 128
Level1-Cache pro SM 96 kB 96 kB 128 kB 128 kB ?

Daneben hat nVidia auf dem "Editor's Day" auch offizielle Angaben zu den Chipflächen und Transistoren-Anzahl von "Gaming-Blackwell" verlauten lassen, bezogen auf die ersten drei Chips GB202, GB203 und GB205. Hiermit werden die Vorab-Angaben gut erfüllt: Der GB202-Chip wurde mal auf ~744mm² vermeldet, real sind es 750mm², beim GB203-Chip ist dann die Differenz zwischen Gerücht á ~377mm² und Realität á 378mm² nochmals kleiner. Generell scheinen die Blackwell-Chips Einheiten-normiert nicht beachtbar größer oder kleiner geworden zu sein, ein Effekt des Wechsels von der 5nm- auf die 4nm-Fertigung ist nicht wirklich zu sehen. So liegen alle Ada- und Blackwell-Chips ab AD104 und GB205 grob um die 120 Millionen Transistoren pro mm² Chipfläche, eher denn ist die Transistorendichte gemäß dieser offiziellen Angaben bei den Blackwell-Chips (durchgehend) leicht geringer geworden. Dies erklärt letztlich auch, wieso nVidia mit dieser Ausgangslage keinen größeren Hardware-Sprung ansetzen konnte, ein solcher ist wohl nur mit einer (klar) besseren Fertigung erreichbar.

Transistoren Chipfläche Hardware ADA-Vorgänger
GB202 92,2 Mrd. 750mm² 192 SM @ 512-bit AD102: 144 SM @ 384-bit, 76,3 Mrd. Transistoren @ 609mm²
GB203 45,6 Mrd. 378mm² 84 SM @ 256-bit AD103: 80 SM @ 256-bit, 45,9 Mrd. Transistoren @ 379mm²
GB205 31 Mrd. 263mm² 50 SM @ 192-bit AD104: 60 SM @ 192-bit, 35,8 Mrd. Transistoren @ 295mm²
GB206 ? ? 36 SM @ 128-bit AD106: 36 SM @ 128-bit, 22,9 Mrd. Transistoren @ 188mm²
GB207 ? ? 24 SM @ 128-bit AD107: 24 SM @ 128-bit, 18,9 Mrd. Transistoren @ 159mm²

Die PC Games Hardware hat sich ausführlich mit der Nutzbarkeit von 8 GB Grafikkartenspeicher auf AMDs Mainstream-Lösung "Radeon RX 7600" beschäftigt, hierbei in den Vergleich gestellt gegen die nur maßvoll schnellere Radeon RX 7600 XT mit gleich 16 GB VRAM. Beide Karten trennt nicht viel, im 3DC Performance-Index sind es nur +8-11%. Die neueren Benchmarks der PCGH zeigen dann allerdings schon unter der FullHD-Auflösung ein etwas anderes Bild mit gleich +14,6% Differenz auf, welche zudem bis zur 4K-Auflösung auf 25,9% anwächst. Dies ist dann das Ergebnis neuerer Benchmarks, wo die VRAM-Belastung gestiegen ist und was die Radeon RX 7600 mit nur 8 GB VRAM selbst unter gewöhnlichem Raster-Rendering schon hier und da ein paar Prozentpunkte Performance kosten läßt. Wirklich deutlich wird es dann unter RayTracing, wo die Performance-Differenzen auf +44% bis +78% lauten – und damit die Radeon RX 7600 non-XT weit hinter ihre XT-Schwester zurückfallen lassen.

FullHD/1080p WQHD/1440p UWQHD 4K/2160p
Radeon RX 7600 → 7600 XT @ Raster +14,6% +18,1% +20,3% +25,9%
Radeon RX 7600 → 7600 XT @ RayTracing +43,7% +55,0% +62,7% +77,8%
gemäß den Benchmarks der PCGH mit 20 Raster- und 15 RayTracing-Tests

Unter RayTracing sind es dann auch nicht mehr nur eher wenige Benchmarks, wo sich ein beachtbarer Unterschied auftut, sondern dann schon die Mehrheit – darunter gemäß der Detailauswertung der PCGH auch einige, welche wegen des VRAM-Mangels der Radeon RX 7600 non-XT mit automatischer Detailreduzierung reagieren. Benchmark-technisch ist dies eine ziemlich eindeutige Geschichte, was die PCGH da präsentieren kann – und für die neuen Grafikkarten des Jahres 2025 gilt somit, dass man sich 8 GB VRAM eigentlich nicht mehr blicken lassen sollte. Speziell zur Radeon RX 7600 wäre allerdings noch interessant zu wissen, wie gut die Karte ihr Performance-Potential mit um einer Stufe niedrigeren Texturensettings halten kann. Dies ist ein gern genanntes Gegenargument gegenüber VRAM-Bedenken – und sollte somit mittels entsprechender Benchmarks besser noch um eine solide Fakten-Grundlage ergänzt werden.