22

News des 22. Februar 2023

Twitterer HXL zeigt Bilder eines Beta-BIOS für die kommenden X3D-Prozessoren von AMD. Mit diesem BIOS für eine X670-Platine von Asus wird die Funktion einer dynamischen CCD-Priorisierung eingeführt, welches auf BIOS-Ebene somit auch Betriebssystem- und Treiber-unabhängig arbeitet. Ziel bei einem X3D-Prozessor dürfte sein, Anwendungen mit einer Benutzung des extra Caches auf eben jenem CCD durchzuführen – und alle anderen Anwendungen auf dem jeweils anderen CCD, welches keinen extra Cache trägt. Dies funktioniert natürlich nur bei Ryzen 9 7900X3D & 7950X3D, wo es zwei CCD gibt, aber nur einen extra Baustein mit 3D V-Cache – welcher dann auf einem der beiden CCD oben drauf gesattelt wird. Für den Ryzen 7 7800X3D ist das ganze nicht gedacht, da es hier sowieso nur einen CCD (mit 3D V-Cache) gibt.

Hardware off. Takt TDP/PPT CCD maximaler Boost-Takt per CCD
Ryzen 9 7950X3D Zen 4, 16C/32T, 16+128 MB L2+L3 4.2/5.7 GHz 120W/? 2x (1x mit 3DVC) CCD #1: ≤5.7 GHz, CCD #2: ≤5.0 GHz (?)
Ryzen 9 7950X Zen 4, 16C/32T, 16+64 MB L2+L3 4.5/5.7 GHz 170/230W 2x beide CCD: ≤5.7 GHz
Ryzen 9 7900X3D Zen 4, 12C/24T, 12+128 MB L2+L3 4.4/5.6 GHz 120W/? 2x (1x mit 3DVC) CCD #1: ≤5.6 GHz, CCD #2: ≤5.0 GHz (?)
Ryzen 9 7900X Zen 4, 12C/24T, 12+64 MB L2+L3 4.7/5.6 GHz 120W/? 2x beide CCD: ≤5.6 GHz
Ryzen 7 7800X3D Zen 4, 8C/16T, 8+96 MB L2+L3 4.x/5.0 GHz 120W/? 1x (mit 3DVC) ≤5.0 GHz
Ryzen 7 7700X Zen 4, 8C/16T, 8+32 MB L2+L3 4.5/5.4 GHz 105/142W 1x ≤5.4 GHz

Insofern das Prinzip funktioniert, können somit vor allem Anwendungen, welche den 3D V-Cache gar nicht benötigen, auf dem X3D-losen CCD laufen – und profitieren von dessen höheren Maximaltakt. Denn die maximale Taktrate des "X3D-CCDs" wird beachtbar niedriger ausfallen, auch wenn AMD dies bislang noch nicht so richtig kommuniziert hat. Der niedrigere Maximal-Takt des Ryzen 7 7800X3D (nur 5.0 GHz anstatt 5.4 GHz beim 7700X) zeigt bereits in die Richtung, dass die "X3D-CCDs" maximal mit jenen 5.0 GHz laufen können. Der Ryzen 7 7800X3D wird demzufolge auch tatsächliche Performance-Verluste unter einiger Anwendungs-Software einstecken müssen – bei Ryzen 9 7900X3D & 7900X3D versucht man diesen Effekt über jene CCD-Priorisierung zu vermeiden. Ob dies in der Praxis halbwegs funktioniert, werden die Hardware-Tester am 27. Februar zu berichten haben.

Laut Twitterer SkyJuice sind die AD106- & AD107-Grafikchips von nVidia nur 156mm² bzw. 186mm² groß – ergo genau in der Mitte der bisherigen Angaben. Für nVidia-Grafikchips jüngeren Baudatums ist dies wenig, aber in den letzten Jahren hatte nVidia eher unter generell hochgehenden Chipflächen operieren müssen – ausgelöst zuerst durch TSMCs 12nm-Fertigung und dann durch Samsungs 8nm-Fertigung. Beide Fertigungen lagen gegenüber dem Stand der Technik jeweils einen halben Node zurück, sprich gegenüber TSMCs 10nm und 7nm (zum jeweiligen Zeitpunkt). Mittels der nun eingesetzten TSMC 4N-Fertigung (ein nVidia-spezielles Derivat von TSMC N5, nicht zu verwechseln mit TSMCs "N4") geht nVidia also eher nur auf die kleinen Chip-Größen von vor der Turing-Generation zurück, wo die Mainstream-Chips genauso schon 200mm² und kleiner waren.

AD107 AD106 AD104 AD103 AD102
Chip-Daten 156mm² 186mm² 35,8 Mrd. Xtors @ 294,5mm² 45,9 Mrd. Xtors @ 378,6mm² 76,3 Mrd. Xtors @ 608,5mm²
Hardware 3 GPC, 24 SM (3072 FP32), 128 Bit, 32 MB L2, 8 GB 3 GPC, 36 SM (4608 FP32), 128 Bit, 32 MB L2, 8 GB 5 GPC, 60 SM (7680 FP32), 192 Bit, 48 MB L2, 12 GB 7 GPC, 80 SM (10'240 FP32), 256 Bit, 64 MB L2, 16 GB 12 GPC, 144 SM (18'432 FP32), 384 Bit, 96 MB L2, 24 GB
Vorgänger GA107: ~9 Mrd. Xtors ~200@ mm², 20 SM @ 128 Bit, GeForce RTX 3050 GA106: 12 Mrd. Xtors @ 276mm², 30 SM @ 192 Bit, GeForce RTX 3050 & 3060 GA104: 17,4 Mrd. Xtors @ 392mm², 48 SM @ 256 Bit, GeForce RTX 3060 Ti, 3070 & 3070 Ti GA103: ~22 Mrd. Xtors @ ~496mm², 60 SM @ 320 Bit, GeForce RTX 3070 Ti GA102: 28,3 Mrd. Xtors @ 628mm², 84 SM @ 384 Bit, GeForce RTX 3080, 3080 Ti, 3090 & 3090 Ti
Chip-Preis (~) AD107: $44 — GA107: $22 AD106: $53 — GA106: $31 AD104: $88 — GA104: $45 AD103: $117 — GA103: $59 AD102: $199 — GA102: $77
Anmerkungen: Derzeit sind nur noch die Angaben zu AD106 & AD107 (minimal) unsicher, der Rest betrifft bereits offiziell vorgestellte Grafikchips. Die Chip-Preise basieren auf dem Silicon Cost Calculator bei 90% Yield und Wafer-Preisen von (angenommen) 5nm TSMC bei $16'000 und 8nm Samsung bei $6000, logischerweise handelt es sich um nicht zuverlässige Hochrechnungen.

Zugleich handelt sich nVidia mittels TSMCs 5nm-Fertigung aber auch drastisch höhere Waferpreise ein, womit selbst die kleineren Chipflächen nirgendwo einen kräftigen Preisanstieg gegenüber dem jeweiligen Ampere-Vorgänger verhindern können. Grob kann man sagen, dass laut diesen (unvollkommenen) Hochrechnungen die Ada-Lovelace-Chips nVidia in der Fertigung mindestens das Doppelte kosten. Etwaige Abweichungen beispielsweise bei der Yield-Rate würden diese grobe Abschätzung nicht beeinflussen, insofern die Abweichung auf beide Fertigungsverfahren zutrifft. Damit würde sich allerhöchstens die absolute Höhe des jeweiligen Fertigungspreises verändern – nicht jedoch die Relation der Fertigungspreise zwischen Ampere und Ada Lovelace.

Ausgangspunkt des vorgenannten "SkyJuice"-Tweets waren im übrigen Benchmarks zur Performance-Skalierung der neuen GeForce RTX 40 Laptop-Grafiklösungen, welche ein schnelles Ende der Performance-Steigerung bei schon 95-105 Watt TGP für die kleineren Modellen sahen. Ausführliche Berichte hierzu kommen von der ComputerBase sowie Notebookcheck, mit speziellem Augenmerk auf GeForce RTX 4050 Laptop, 4060 Laptop & 4070 Laptop. Dabei stimmten beide Artikel überein in der Frage, inwiefern die neuen, kleineren Laptop-Lösungen an die hohen Performance-Steigerungen von GeForce RTX 4080 laptop & 4090 Laptop herankommen – dies ist bei den genannten drei kleineren RTX40-Mobile-Lösungen mitnichten der Fall. In der Höhe der Differenz gibt es dann Unterschiede zwischen beiden Testberichten, was aber durchaus zur besseren Erfassung dieses selten wirklich eingehend beleuchteten Segments beitragen kann.

Daneben bestätigen die Skalierungs-Benchmarks der ComputerBase den Eindruck, dass die TGP-Werte der kleinsten RTX40-Mobile-Beschleuniger unnötig hoch angesetzt sind. Hier ist die (schmale) Hardware lange vorher zu Ende, ehe die maximal 140 Watt von GeForce RTX 4050 Laptop & 4060 Laptop erreicht werden. Bei der Frage des Performance-Vergleichs zu "RTX30 Laptop" kann zudem generell auf die unterschiedlichen Hardware-Zugewinne der einzelnen neuen RTX40-Mobile-Beschleuniger verwiesen werden: Bei GeForce RTX 4080 Laptop & 4090 Laptop ist dies jeweils viel, auch GeForce RTX 4050 Laptop schneidet nicht generell schlecht ab (allerdings Nachteil beim Speicherinterface). Doch GeForce RTX 4060 Laptop & 4070 Laptop kommen jeweils mit klar weniger Hardware als ihre Namensvorgänger als der RTX30-Serie daher. Höhere Effizienz und mehr Takt der Ada-Lovelace-Generation gehen in diesen beiden Fällen zuerst dafür drauf, den jeweiligen Hardware-Nachteil zu überbrücken – womit nachfolgend keine großen Performance-Zugewinne mehr drin sind.

Ampere Ada Lovelace
GeForce RTX 4090 Laptop
AD103, 76 SM @ 256 Bit, 16 GB, 80-150W TGP (+25W)
GeForce RTX 3080 Ti Laptop
GA103, 58 SM @ 256 Bit, 16 GB, 60-150W TGP (+25W)
GeForce RTX 3080 Laptop
GA104, 48 SM @ 256 Bit, 8/16 GB, 60-150W TGP (+15W)
GeForce RTX 4080 Laptop
AD104, 58 SM @ 192 Bit, 12 GB, 80-150W TGP (+25W)
GeForce RTX 3070 Ti Laptop
GA104, 46 SM @ 256 Bit, 8 GB, 60-125W TGP (+25W)
GeForce RTX 3070 Laptop
GA104, 40 SM @ 256 Bit, 8 GB, 60-125W TGP (+15W)
GeForce RTX 4070 Laptop
AD106, 36 SM @ 128 Bit, 8 GB, 35-115W TGP (+25W)
GeForce RTX 3060 Laptop
GA106, 30 SM @ 192 Bit, 6 GB, 60-115W TGP (+15W)
GeForce RTX 4060 Laptop
AD107, 24 SM @ 128 Bit, 8 GB, 35-115W TGP (+25W)
GeForce RTX 3050 Ti Laptop
GA107, 20 SM @ 128 Bit, 4 GB, 35-80W TGP (+15W)
GeForce RTX 3050 Laptop
GA107, 16 SM @ 128 Bit, 4 GB, 35-80W TGP (+15W)
GeForce RTX 4050 Laptop
AD107, 20 SM @ 96 Bit, 6 GB, 35-115W TGP (+25W)
Anmerkung: Ada Lovelace sollte hier wegen der viel besseren Fertigung (Samsung 8nm vs TSMC 4N) einen erheblichen Taktraten-Vorteil haben