22

News des 22. April 2024

Von Hardwareluxx kommt ein ganzes Benchmark-Set zum Effekt von Intels "Baseline-Profil" für B760- und Z790-Mainboards, abzielend auf die Stabilitäts-Probleme der K/KF-Modelle von Core i7/i9 aus Intels 13. & 14. Core-Generation. Verglichen wird hierbei der unlimitierte Autooptimierungs-Zustand mit eben dem Baseline-Profil, was erstaunlich viel an Performance kostet: Unter Anwendungs-Benchmarks (mit starker Multithreading-Neigung) immerhin –9,5%, unter Spielen im CPU-Limit aber auch noch –3,4%. Die Anzahl der hierfür jeweils angesetzten Benchmarks ist nicht groß, aber es zeigt sich zumindest, dass es nicht nur um den Cinebench dreht und dass auch Spiele nicht gänzlich unbetroffen sind.

unlimitiert Baseline-Profile Differenz
Cinebench R23 Singlethread 2341 2322 –0,8%
Cinebench R23 Multithread 40'848 37'197 –8,9%
Blender (Classroom) 137,70 sec 149,96 sec –8,2%
Y-Cruncher (500M, Multithread) 8,645 sec 9,739 sec –11,2%
durchschnittliche Anwendungs-Performance (MT):   –9,5%
Control (720p, "hoch") 228,3 fps 228,0 fps –0,1%
F1 23 (720p, "Ultrahoch") 265,2 fps 257,4 fps –2,9%
Shadow of the Tomb Raider (1080p, "Ultrahoch") 357,4 fps 348,5 fps –2,5%
Starfield (720p, "Hoch") 164,1 fps 151,3 fps –7,8%
durchschnittliche Spiele-Performance (720p):   –3,4%
gemäß der Messungen von Hardwareluxx mit einem Core i9-14900K auf einem Asus ROG Maximus Z790 Apex

In diesem Fall ergibt sich allerdings auch eine (nicht untypisch) größere Bandbreite an Resultaten: Ein Titel reagiert gar nicht, zwei hingegen mäßig – und ein vierter hingegen ziemlich stark, mit einem Performance-Abschlag auf dem Niveau der Anwendungs-Benchmarks liegend. Es muß somit noch offen bleiben, wie stark das Problem im Spiele-Feld tatsächlich ist – sprich, andere Benchmark-Felder könnten hier auch noch etwas abweichende Resultate erbringen. Zwar sind 3% Performance-Abschlag normalerweise keine Rede wert, allerdings liegen im Spiele-Feld die Spitzen-Modelle von AMD & Intel derart eng beieinander, dass dieser kleine Abschlag dann doch für einen sichtbaren Unterschied speziell bei der Bestimmung des aktuellen Performance-Führers sorgen könnte.

Nochmals zeigen die Hardwareluxx-Benchmarks im Feld der Anwendungs-Performance eindeutig auf, dass der Abschlag von Intels Baseline-Profil deutlich größer ausfällt als frühere Versuche, im Intel-Limit zu messen. Die ComputerBase hatte beispielsweise einen Performance-Abschlag von –2% für den Core i9-14900K unter wiederum primär Multithreading-lastigen Benchmarks ermittelt, wenn man dessen Stromdurst manuell auf 253 Watt begrenzte. Seinerzeit dachte man, dies wäre dann die Performance im regelgerechten Betrieb – augenscheinlich ein Irrtum, wenn man sich nun diese neuen Benchmarks und ihren viel höheren Performance-Abschlag ansieht. Offenbar gehen die Einschränkungen des Spezifikations-gerechten Betriebs viel weiter, als sich allein auf das korrekte PL2-Limit zu beschränken.

Gemäß AnandTech hat das Speicherstandardisierungs-Gremium JEDEC die Spezifikationen für DDR5-Speicher um einige Taktraten erweitert: Wo bisher bei DDR5/6400 Schluß war, geht es nunmehr auch offiziell bis auf DDR5/8800 hinauf. DDR5-Speicher geht damit deutlich über die übliche Verdopplung des Speichertakts ausgehend von der kleinsten Taktung bzw. dem (offiziellen) Ende des Vorgänger-Standards hinaus, wobei sich die (offizielle) DDR5-Taktrate in Zukunft durchaus noch weiter steigern könnte, ehe dann irgendwann DDR6-Speicher die Ablösung bildet. Wie üblich bei der JEDEC-offiziellen Standardisierung bleiben die absoluten Latenzen gleich, es steigt allein die Speicherbandbreite an. Damit die absoluten Latenzen gleichbleiben, erhöhen sich somit die CAS-Timings auf 62-62-62 bei DDR5/8800.

Über einen interessanten Ansatzpunkt gegenüber dem Nahezu-Monopol von nVidia im Markt der AI-Beschleuniger berichten WCCF Tech: Danach könnte nVidias übliche Tendenz der ständige Erhöhung des Stromverbrauchs eines Tages kritisch werden, weil aufgrund der enormen Anzahl der gebauten und verkauften AI-Beschleuniger sich dies mit der Zeit auf gigantische Stromverbräuche summiert. Für das Jahr 2027 rechnen Analysten damit, dass der globale DataCenter-Stromverbrauch in Richtung des Verbrauchs ganzer Nationen wie Holland, Argentinien oder Schweden geht. So lange damit gute Geschäfte zu machen sind, läuft dies für nVidia und die DataCenter-Betreiber natürlich erst einmal weiter – es eröffnet aber die Seitenchance für andere Chipprojekte im AI-Sement, welche explizit auf Energieeffizienz setzen.

Jene haben es normalerweise schwierig, sich mit der puren Rohleistung von nVidia zu messen, könnten aber auch bei zurückhängender Performance bei den gesamten Betriebskosten eventuell günstiger kommen, wenn man eben den laufenden Stromverbrauch mit einkalkuliert. Für die DataCenter-Betreiber dürfte auch ein gewichtiger Punkt sein, dass man den Stromverbrauch ausgehend von diesem hohen Niveau dann nicht mehr beliebig steigern kann bzw. dass dies jeweils Zusatzkosten nach sich zieht (stärkere Server-Klimatisierung, bessere Energienetz-Anbindung, höhere Investitionen in Ausfallsicherheiten). Normalerweise sollte nVidia natürlich diese Problematik erkennen und versuchen gegenzusteuern – indem man sich irgendwann ein Stromverbrauchs-Limit setzt und Fortschritte dann nur noch innerhalb dieses Limits versucht zu erreichen. Wie im Grafikkarten-Geschäft zu sehen, hält ein solcher Vorsatz aber nicht lange und ist der kurzfristige Erfolg wichtiger als langfristige Perspektiven.

Auch im HPC/AI-Geschäft hatte nVidia zuletzt mit der "Backwell"-Vorstellung den Stromverbrauch deutlich nach oben gesetzt, obwohl man eigentlich in der Marktposition ist, dass einem alle Ware direkt aus den Händen gerissen wird. Das zugrundeliegende Problem ist hier vielmehr, dass die Entwicklung der Halbleiterfertigung nicht mehr so rasant verläuft wie in den vorhergehenden Dekaden: Zwar wird weiterhin grob aller zwei Jahre ein Fullnode-Sprung geboten, die damit jeweils erzielten Fortschritte sind allerdings nicht mehr so deutlich wie es früher normal war. Wirklich große Performance-Verbesserungen, welche zudem verbrauchsneutral erzielt werden, sind damit nicht mehr möglich. Die Chipentwickler entscheiden sich in dieser Situation zumeist für einen Mix aus bedeutsamen Performance-Verbesserungen mit etwas Mehrverbrauch – was mit der Zeit allerdings genauso den Stromverbrauch deutlich nach oben verschiebt. Für HPC-Blackwell hatte nVidia noch nicht einmal einen Fullnode-Sprung zur Verfügung, demzufolge explodierte der Stromverbrauch förmlich.

geringere Fläche höhere Taktrate geringerer Verbrauch Massenfertigung
TSMC N7   (vs. N10) >37% ? <40% 2018
TSMC N7P   (vs. N7) ±0 7% 10% 2019
TSMC N7+   (vs. N7) ~17% 10% 15% Q2/2019
TSMC N5   (vs. N7) 45% 15% 30% Q2/2020
TSMC N5P   (vs. N5) ±0 5% 10% 2021
TSMC N4   (vs. N5) 6% 5% "niedriger" 2022
TSMC N4P   (vs. N5) 6% 11% 22% H2/2022
TSMC N4X   (vs. N5) ? 15% (oder mehr) ? 2023
TSMC N3   (vs. N5) 42% 10-15% 25-30% H2/2022
TSMC N3E   (vs. N3) ? 3-7% 3-7% Q2-Q3/2023
TSMC N2   (vs. N3) ? 13-23% 29-39% H2/2025
Anmerkung: bei Taktrate & Verbrauch gilt "entweder/oder" – man kann sich für einen der beiden Effekte entscheiden oder nimmt jeweils einen Anteil beider Effekte mit, niemals jedoch beide Effekte in voller Höhe