Fehlerhafte Benchmark-Werte bei 3DC

In der Übersicht der Testresultate zur UltraHD/4K-Performance zur GeForce RTX 3080 im Vergleich mit früheren AMD- und nVidia-Grafikkarten wurden nachträglich noch zwei (eigene) Fehler entdeckt, welche im Laufe des 17. September korrigiert wurden. Der erste Fehler betraf nur einen kleinen Lapsus bei den Werten vom rumänischen Lab501, welcher jedoch nur eine minimale Auswirkung auf den Gesamt-Index hatte. Der zweite Fehler war dagegen gravierend: Beim Übertrag der Index-Werte der ComputerBase wurde leider (wohl ob der Freude, dass die ComputerBase eigene Indizes führt und somit keine manuelle Auswertung notwendig ist) übersehen, dass in derem Index nicht die GeForce RTX 3080 auf "100%" gesetzt ist, sondern hingegen die GeForce RTX 3080 übertaktet auf "100%" steht. Die unübertaktete GeForce RTX 3080 steht hingegen bei 95,4%, was ergo alle Vergleichswerte der Computerbase um relativ -4,6% zu niedrig in die weiteren Rechnungen einfließen ließ.

Inbesondere weil die Werte der ComputerBase dann nachfolgend auch mit zur Interpolation fehlender Werte benutzt wurden sowie in die Gewichtung (zugunsten der Reviews mit hoher Benchmark-Anzahl und breiter Karten-Auswahl) eingeflossen sind, wurde dieser Fehler somit ziemlich breit weitergetragen. Insofern ist es erstaunlich, wie wenig der insgesamte Performance-Index auf diesen durchaus schweren Fehler reagierte: Im Normalfall liegt die Index-Differenz von falschem zu korrigiertem Stand (beider Fehler, jenen von Lab501 eingeschlossen) zwischen 0,1 und 0,3 Prozentpunkten – nur in einem einzelnen Fall bei 1,1 Prozentpunkten. Jener passierte bei der GeForce RTX 2080, dem einzigen "fehlenden" Benchmark-Wert seitens der ComputerBase. Augenscheinlich hat der Fehler also insbesondere die Werte-Interpolation vergleichsweise stark getroffen – was es um so interessanter macht, Reviews mit möglichst vollständigen Datenreihen auszuwählen oder sich bei der Anzahl der Datenreihen auf ein vernünftiges Maß zu beschränken (um Werte-Interpolationen eher zu vermeiden).

UltraHD/4K-Performance	Vega64	R7	5700XT	1080	1080Ti	2070S	2080	2080S	2080Ti	3080
FEHLERHAFT: ComputerBase	37,7%	51,7%	47,7%	38,2%	50,9%	52,7%	-	59,8%	73,0%	100%
KORRIGIERT: ComputerBase	39,5%	54,2%	50,0%	40,0%	53,4%	55,2%	-	62,7%	76,5%	100%
FEHLERHAFT: Ø 4K-Performance	41,3%	54,3%	50,5%	40,1%	53,2%	54,7%	58,1%	63,1%	75,8%	100%
KORRIGIERT: Ø 4K-Performance	41,4%	54,6%	50,4%	40,2%	53,4%	55,0%	59,3%	63,4%	76,1%	100%
Fehlermarge: Ø 4K-Performance	-0,1PP	-0,3PP	+0,1PP	+0,1PP	-0,2PP	-0,3PP	-1,1PP	-0,3PP	-0,3PP	-

Nichtsdestotrotz hat letztlich wohl allein die hohe Anzahl der insgesamt verarbeiteten Benchmark-Ergebnisse dazu geführt, dass sich dieser schwere Fehler nicht stärker auswirkte und den Performance-Index in seinem Gesamtbild somit kaum verfälscht hat. Dies ist eine nützliche Erkenntnis, wenn es darum geht, Benchmark-Serien mit bemerkbaren Ausreißern zu bewerten: Stellt man jenen nur genügend "normale" Ergebnisse gegenüber, dann verwischt der Effekt der Ausreißer letztlich so stark, dass das insgesamte Ergebnis nicht darunter leidet. Hierzu gibt es die generelle Empfehlung, mindestens 10 Benchmarks anzusetzen, ab dieser Menge wird ein daraus erstellter Performance-Index vergleichsweise solide. Um gegenüber Ausreißer-Werten gewappnet zu sein, sollte es allerdings besser etwas mehr sein, so ab 15-20 Benchmarks gehen diese erfahrungsgemäß (bzw. wie nun vorstehend nachgewiesen) im Gesamtbild unter.

Gleiches gilt dann, wenn man aus mehreren Reviews einen insgesamten Index aufstellt: Die einzelnen Reviews sollte 10+ Benchmarks ansetzen, die Anzahl der Reviews sollte bei 10+ liegen – besser sind in beiden Fällen eher wieder 15-20 Benchmarks bzw. Reviews. Bei dieser Anzahl treten Benchmark-Ausreißer bzw. Rechen- und Übertragungsfehler ausreichend weit in den Hintergrund, um keinen großen Effekt zu haben. Geht man hingegen den umgekehrten Weg von eher weniger Benchmarks und Reviews, dann muß faktisch so etwas wie eine Einzelprüfung der Resultate auf Plausibilität erfolgen – um Ausreißern und Fehler vorzubeugen, welche dann in der Endabrechnung zu viel Einfluß hätten. Eine aufwendige Arbeit ist es damit so oder so – und natürlich trotzdem nie gefeit vor Fehlern.

Davon unberührt ist somit um tiefe Entschuldigung zu bitten für diese anfänglich falsch veröffentlichten Werte – verbunden mit Dank an 'von Richthofen' im 3DCenter-Forum, welcher den Fehler bei den Werten zur ComputerBase bemerkt hat.