22

nVidia bestätigt einige GeForce RTX 5070 Ti, 5090D & 5090 mit zu geringer ROP-Anzahl, Karten werden ausgetauscht

TechPowerUp haben eine GeForce RTX 5090 mit falscher ROP-Anzahl erspäht – anstatt der nominellen 176 ROPs sind es nur 168, die tatsächlich aktiv sind. Ein Auslesefehler seitens GPU-Z kann ausgeschlossen werden, da zum einen die Performance dieser fehlerhaften Grafikkarte leicht niedriger lag, GPU-Z zudem diese Werte tatsächlich ausliest und nicht aus einer Datenbank entnimmt (Bedingung: Treiber muß installiert & aktiv sein). Ausgehend von der initialen Zotac-Karte wurde dieser Fehler nachfolgend auch auf Karten von MSI (5090D), von Manli (5090D), von Gigabyte, von Palit und von Inno3D gesichtet, soll zudem auch bei nVidias FE möglich sein. Der Performance-Impact dieses Fehler ist ziemlich gering, in drei Spiele-Tests sind es nur 1-2% weniger Performance, nur der 3Mark13 TimeSpy Extreme schlägt mit –11% beachtbar heftig aus.

aktive ROPs TimeSpy Extreme Spiele 4K
nVidia GeForce RTX 5090 FE 176 ROPs 25'439 100%
Zotac GeForce RTX 5090 Solid 168 ROPs - 98,4%
Zotac GeForce RTX 5090 Solid (Retest) 168 ROPs 22'621 (–11%) 98,6%
gemäß den Ausführungen von TechPowerUp

In einem größeren Testfeld kann dies vielleicht sogar untergehen und wurde wohl nur deswegen entdeckt, weil die hierfür benutzte "Zotac GeForce RTX 5090 Solid" mit nVidias Referenz-Taktung antritt, sprich wegen dieser fehlenden ROPs auch hier und da bemerkbar langsamer als nVidias Founders Edition herauskommt. Derselbe Fehler bei einer gut werksübertakteten Karten könnte somit unter Umständen gar nicht bemerkt werden, da die Karte dies dann über ihre Werksübertaktung wieder ausgleichen dürfte. Laut Twitterer MEGAsizeGPU liegt das Problem auch nicht beim BIOS, sondern tatsächlich auf dem benutzten GB202-Chip selber. Dies wird bestätigt durch ein nVidia-Statement zu diesem Fall, welches The Verge eingeholt haben: Danach handelt es sich um einen Produktionsfehler bei den Grafikchips selber, welcher inzwischen behoben wurde, aber einen kleinen Teil der bereits ausgelieferten Karten betrifft.

The root cause is the chip. A small batch of GB202 is defective, and the bios can not do anything with this issue.
Quelle:  MEGAsizeGPU @ X am 21. Februar 2025
 
We have identified a rare issue affecting less than 0.5% (half a percent) of GeForce RTX 5090 / 5090D and 5070 Ti GPUs which have one fewer ROP than specified. The average graphical performance impact is 4%, with no impact on AI and Compute workloads. Affected consumers can contact the board manufacturer for a replacement. The production anomaly has been corrected.
Quelle:  nVidia-Statement gegenüber The Verge, veröffentlicht am 22. Februar 2025

Interessant ist hierbei, dass nVidia an dieser Stelle auch die GeForce RTX 5070 Ti erwähnt, wozu noch gar keine entsprechenden Fehler vermeldet wurden – womöglich auch, weil viel zu wenig Ware beim Marktstart vorhanden war und diese möglicherweise derzeit (unausgepackt) in Scalper-Händen liegt. nVidia spricht hierzu von "einer" fehlenden ROP, was im diesem Fall aber eine ROP-Gruppe sein muß, denn bei der GeForce RTX 5090 (D) fehlen bekanntlich 8 ROPs. Auf die GeForce RTX 5070 Ti bezogen bedeutet dies, dass dort anstatt regulär 96 ROPs wohl nur 88 davon aktiv sind – was wie gesagt noch nicht in freier Wildbahn erspäht wurde. Interessanterweise gibt nVidia einen Performance-Impact von sogar 4% an, somit höher liegend als bei den Benchmarks von TechPowerUp. So oder so sollen die bereits ausgelieferten Karten mit falscher ROP-Anzahl ausgetauscht werden (nachprüfbar mittels GPU-Z), was Käufer dieser Karten über die Grafikkarten-Hersteller erledigen müssen.

GeForce RTX 5070 Ti GeForce RTX 5090D & 5090
Chipbasis nVidia GB203 nVidia GB202
Spezifikations-gerechte ROP-Anzahl 96 176
fehlerhafte Charge wurde ausgeliefert mit ROP-Anzahl 88 168
bisher betroffene Karten-Hersteller noch keine Sichtungen nVidia, Gigabyte, Inno3D, Manli, MSI, Zotac (andere könnten prinzipiell genauso betroffen sein)

Logischerweise ist das ganze ein unabsichtlicher und bedauerlicher Produktionsfehler, welcher nun einmal vorkommen kann – selbst bei besten Absichten und hohen Anstrengungen zur Qualitätskontrolle. Allerdings reiht sich dies auch ein in eine Reihe von kleinen und großen Fehlern, mit welchen der "Blackwell"-Launch im Gaming/Consumer-Segment zu kämpfen hat. Für nVidia ist diese Problemhäufung doch ungewöhnlich, war man bisher von nVidia sehr problemlose Produkte und Launches gewöhnt, unterbrochen nur durch die (von nVidia nicht beeinflussbare) Chip-Krise samt Cryptomining-Hype der Jahre 2020-2022. nVidia muß nach den Launches von GeForce RTX 5070, 5060 Ti & 5060 dringend zu einer internen Aufarbeitung schreiten, wie so viele Dinge in so kurzer Zeit schiefgehen konnten. Denn derzeit befindet man sich auf dem besten Weg, ein gewichtiges früheres Qualitätsmerkmal abzugeben und sich in dieser Frage nicht mehr besserstellen zu können gegenüber den Kontrahenten AMD & Intel.

In just 20 days, we discovered that Lackwell has
– Driver issues
– Display engine issues
– 32bit CUDA dropped
– 12VHPWR/12V-2x6 connectors melting
– No current balancing
– Changes clocks after a reboot
– Increased L2 latencies
– No stock/High lead times
– Fake MSRP
– 168/176 ROPs

Quelle:  Everest @ X am 21. Februar 2025

Nachtrag vom 23. Februar 2025

Die "ROP-Affäre" der GeForce RTX 50 Serie weitet sich nunmehr aus: Zum einen berichtet Twitterer Tomasz Gawronski über einen ersten Fall bei einer GeForce RTX 5070 Ti, was nVidia in seinem Statement bereits erwähnt hatte, aber bislang in freier Wildbahn noch nicht zu sehen war. Inwiefern die für die Launch-Reviews benutzten Karten betroffen waren, läßt sich nicht abschließend sagen, da nicht jeder Hardwaretester einen GPU-Z-Screenshot anfügt. Bei TechPowerUp waren zumindest alle getesteten GeForce RTX 5070 Ti Modelle von diesem Problem nicht betroffen. Die ComputerBase hatte ihre eigene GeForce RTX 5070 Ti schon entsprechend nachgeprüft (ebenfalls fehlerfrei), die anderen Hardwaretester dürfen sich hierzu gern auch noch erklären. Und zum anderen ist auf Reddit nun auch noch eine GeForce RTX 5080 mit fehlerhafter ROP-Anzahl aufgetaucht.

reguläre ROPs falsche ROP-Anzahl Differenz
GeForce RTX 5090 (D) 176 168 –8 ROPs (–4,5%)
GeForce RTX 5080 112 104 –8 ROPs (–7,1%)
GeForce RTX 5070 Ti 96 88 –8 ROPs (–8,3%)

Jene Karte hatte nVidia noch überhaupt nicht erwähnt, aufgrund der Gleichheit des Fehlers (es fehlen überall exakt 8 ROPs) erstaunt dies allerdings auch nicht besonders. Möglicherweise traf dieses Problem auch auf GeForce RTX 5070, 5060 Ti und 5060 zu und wurde dort sogar zuerst entdeckt, da bei den kleineren Modellen jeweils 8 fehlende ROPs die Performance um so stärker reduzieren werden. Schließlich soll es zu diesen kleineren Modellen ein Fertigungsproblem gegeben haben, was zu geringer Leistung führt und diese kleineren Karten um einen Monat zurückgeworfen hat – jene Aussage passt sehr wohl zu dieser ROP-Problematik (was natürlich nicht zwingend bedeutet, das dies wirklich diesen Grund hat). Während nVidia somit bei den Modellen GeForce RTX 5070 und kleiner von Anfang an fehlerfreie Hardware ausliefern will, müssen die derzeit im Umlauf befindlichen Exemplare von GeForce RTX 5070 Ti, 5080 5090D & 5090 mittels GPU-Z identifiziert und nachfolgend in RMA gegeben werden.

Erstaunlich ist dabei der teilweise hohe Performance-Impact dieser 8 fehlenden ROPs, was gerade bei einer GeForce RTX 5090 nur –4,5% weniger als der Default-Zustand sind. TechPowerUp hatten hierzu allerdings schon ein TimeSpy-Extreme-Ergebnis von immerhin –11% weniger bei einer GeForce RTX 5090 ausgemessen, bei der ComputerBase sind es nunmehr auch –11% unter dem regulären TimeSpy mit der GeForce RTX 5070 Ti. Die reale Spiele-Performance ist weit weniger stark betroffen (gemäß TechPowerUp sind es eher denn –2%, gemäß nVidia –4%), aber dennoch dürfen eigentlich auch Einzelwerte nicht so stark reagieren. Es besteht hiermit die theoretische Möglichkeit, dass sogar etwas mehr betroffen ist als nur 8 ROPs. Alternativ wäre es natürlich auch denkbar, dass die Grafikchip-interne Lastverteilung nicht mit der halbierten Anzahl an ROPs pro Raster-Engine (regulär sind es bei nVidia 16 ROPs pro Raster-Engine) umgehen kann und daher die betroffene Raster-Engine die ganze Grafik-Pipeline schlicht ungebührlich blockiert.