AMDs Präsentation zu den 2013er Steamroller-Rechenkernen

Donnerstag, 30. August 2012
 / von Leonidas
 

Auf der HotChips-Konferenz hat AMD nicht nur Details zu den Jaguar-Rechenkernen des Bobcat-Nachfolgers "Kabini" bekanntgegeben, sondern auch über die Steamroller-Rechenkerne gesprochen, welche sowohl im Trinity-Nachfolger "Kaveri" als auch in der dritten Bulldozer-Ausbaustufe (nach der Piledriver-Ausbaustufe) antreten werden. Und augenscheinlich soll Steamroller dann wirklich deutliche Verbesserungen mit sich bringen, welche die Performance der darauf basierenden Prozessoren potentiell sogar erheblich steigern können.

Neben vielen kleineren Verbesserungen dürfte hierfür in erster Linie die Aufweichung des Modul-Bauprinzips der Steamroller-Rechenkerne sorgen: Bisher mussten sich die zwei Integer-Pipelines eines Bulldozer-Moduls immer einen Befehls-Dekoder teilen – ab Steamroller gibt es wieder für jede der zwei Integer-Pipelines einen extra Befehls-Dekoder (Folie 14). Dies soll die Auslastung dieser Integer-Pipelines erheblich steigern, laut AMD können damit sogar 30 Prozent mehr Rechenbefehle pro Takt abgearbeitet werden. Dies wäre dann in der Tat ein enormer Sprung – aber wie das so ist mit dem Vorhersagen von CPU-Technikern: Man muß abwarten, wieviel von dieser unter idealen Bedingungen sicherlich erreichbaren Größe dann auch in der Praxis herkömmlicher Anwendungssoftware und Benchmarks ankommt.

Denn wollte man die anderen von AMD genannten Verbesserungen da oben drauf addieren, käme man schnell auf eine Pro-MHz-Verbesserung von +40% und mehr bei Steamroller – und dies hört sich dann doch eher unglaubwürdig an. In der Realität von gemixtem Code, welcher auch die Nutzung der (bei Steamroller kaum verbesserten) FPU einschließt, wären schon eine Pro-MHz-Verbesserung von +20% ein überaus stolzes Ergebnis. Immerhin liegt Bulldozer gegenüber den Intel-Prozessoren im Bereich der Anwendungsbenchmarks nicht so weit weit, die derzeit prognostizierten Pro-MHz-Verbesserungen von Piledriver (+5-10%) und Steamroller (+15%) zusammengenommen würden AMD problemlos in die Situation bringen, mit Intel wieder auf Augenhöhe konkurrieren zu können.

Bulldozer Piledriver Steamroller
Verbesserungen an den Rechenkernen - verbesserter Taktgeber, aktivierte Integer-Divisionseinheit, verbesserte Sprungvorhersage, größerer Level1 TLB, optimierter Level2-Cache, größerer INT-Scheduler, Beschleunigung von 256 Bit AVX, größerer Instruktions-Cache verdoppelter und damit pro Integer-Rechenkern extra ausgelegter Befehls-Dekoder, größerer Instruktions-Cache, verbesserte Sprungvorhersage, Beschleunigung des Level1-Caches, neue Radix-8-Dividierer-Einheit, schneller Scheduler, verbesserte Integer-Einheiten mit mehr SingleThread-Performance, generell größere Register und niedrigere Latenzen ... aber auch Verlust einer der beiden (selten genutzten) MMX-Recheneinheiten
Pro-MHz-Gewinn - erste (ideale) Messungen bei +18%, in der Realität vielleicht bei +5-10% unsicher, AMDs Vorhersagen gehen bis auf +40% hinauf, in der Realität sind vielleicht +15% möglich
verbaut in APU - Trinity (A-Serie) Kaveri
Release - Mobile: Mai 2012
Desktop: Oktober 2012
erstes Halbjahr 2013
Fertigung - 32nm GlobalFoundries 28nm GlobalFoundries
erreichte Taktrate - 3.8 GHz (TC 4.2 GHz) beim A10-5800K ?
verbaut in CPU Bulldozer (FX-Serie) Bulldozer/Piledriver (FX Next) Bulldozer/Steamroller
Release Oktober 2011 Oktober 2012 zweites Halbjahr 2013
Fertigung 32nm GlobalFoundries 32nm GlobalFoundries 28nm GlobalFoundries
erreichte Taktrate 3.6 GHz (TC 4.2 GHz) beim FX-8150 4.0 GHz (TC 4.2 GHz) beim FX-8350 ?

Dafür müsste AMD noch nicht einmal an der Taktschraube drehen – ein Punkt, welcher bei Steamroller derzeit noch komplett vakant ist. Der Wechsel auf die 28nm-Fertigung bei allen Steamroller-basierten Prozessoren kann hier durchaus Taktspielräume eröffnen, zudem will AMD auch einige Stromverbrauchsverbesserungen bei Steamroller anbringen. Allerdings bedeutet eine neue Fertigung auch ein neues Risiko – und am Ende werden Steamroller-basierte Produkte mit den ganzen Verbesserungen auch wieder mehr Transistoren benötigen und könnte AMD also den ganzen Gewinn durch die kleinere Fertigung für eben dieses höhere Transistorenbudget aufwenden müssen.

Leider noch nicht in Steamroller enthalten sein wird die neue Herangehensweise an das Chipdesign mit automatisierten Bibliotheken, welche AMD in Folie 22 abbildet. Hiermit erwartet AMD eine um 30 Prozent kleinere Die-Fläche (von Teilen des Designs) sowie eine um 15 bis 30 Prozent niedrigere Stromaufnahme (anscheinend für den kompletten Prozessor) – was im Gegenzug dann wieder höhere Taktraten im gleichen TDP-Budget und damit eine erhebliche Performancesteigerung möglich machen würde. Diese Folie 22 ist aber nur ein Ausblick auf zukünftige Prozessoren-Designs von AMD und wird bei Steamroller wie gesagt noch nicht zum Einsatz kommen – möglicherweise aber dann beim Steamroller-Nachfolger Excavator, welcher derzeit aber erst für das Jahr 2015 erwartet wird.

AMDs Steamroller-Präsentation (Slide 00)
AMDs Steamroller-Präsentation (Slide 00)
AMDs Steamroller-Präsentation (Slide 13)
AMDs Steamroller-Präsentation (Slide 13)
AMDs Steamroller-Präsentation (Slide 14)
AMDs Steamroller-Präsentation (Slide 14)
AMDs Steamroller-Präsentation (Slide 15)
AMDs Steamroller-Präsentation (Slide 15)
AMDs Steamroller-Präsentation (Slide 16)
AMDs Steamroller-Präsentation (Slide 16)
AMDs Steamroller-Präsentation (Slide 17)
AMDs Steamroller-Präsentation (Slide 17)