Launch-Analyse: AMD Llano

Mittwoch, 15. Juni 2011
 / von Leonidas
 

Mit dem gestrigen Dienstag hat AMD seine Llano-Prozessorenarchitektur etwas überraschend vorgestellt – wenngleich es eigentlich kein echter Launch war, denn zu einigen Details hält sich AMD weiterhin ziemlich bedeckt und es wurden zudem "nur" die Llano-Modelle für das Mobile-Segment offiziell in den Markt entlassen. Nichtsdestotrotz gibt es inzwischen genügend Informationen und Benchmarks, um passabel Llano einschätzen zu können – sowohl für das Mobile- als auch das Desktop-Segment.

Grob betrachtet stellt Llano dabei eine klare Fortentwicklung der bekannten K10-Architektur des originalen Phenom-Prozessors vor, außer einer Verdopplung des Level1-Caches (nunmehr 1 MB pro Rechenkern) und dem generellen Weglassen eines Level3-Caches gibt es CPU-seitig keine wichtigen Neuerungen zu berichten. AMD behauptet zwar, durch interne Verbesserungen die IPC-Performance um 6 Prozent gesteigert zu haben, aber dies macht das Kraut auch nicht mehr fett – und vor allem befördert es Llano nicht in andere Performance-Sphären als Athlon II und Phenom II.

Technik Fertigung
AMD Athlon II X2 (Regor) 2 Rechenkerne, 1 MB Level2-Cache je Kern, kein Level3-Cache, DualChannel-Speicherinterface bis DDR3/1066, CPU-Befehlssatzerweiterungen bis SSE 4a, keine integrierte Grafik, Sockel AM3, 8er Chipsatz-Serie 234 Millionen Transsitoren in 45nm auf 117,5mm² Die-Fläche
AMD Athlon II X4 (Propus) 4 Rechenkerne, 512 kByte Level2-Cache je Kern, kein Level3-Cache, DualChannel-Speicherinterface bis DDR3/1333, CPU-Befehlssatzerweiterungen bis SSE 4a, keine integrierte Grafik, Sockel AM3, 8er Chipsatz-Serie 300 Millionen Transsitoren in 45nm auf 169mm² Die-Fläche
AMD Phenom II X4 (Deneb) 4 Rechenkerne, 512 kByte Level2-Cache je Kern, 6 MB shared Level3-Cache, DualChannel-Speicherinterface bis DDR3/1333, CPU-Befehlssatzerweiterungen bis SSE 4a, keine integrierte Grafik, Sockel AM3, 8er Chipsatz-Serie 758 Millionen Transsitoren in 45nm auf 258mm² Die-Fläche
AMD Llano 2C 2 Rechenkerne, 1 MB Level2-Cache je Kern, kein Level3-Cache, DualChannel-Speicherinterface bis DDR3/1866, CPU-Befehlssatzerweiterungen bis SSE4a, integrierte AMD-Grafik mit 160 VLIW5 Shader-Einheiten, Sockel FM1, 70er Chipsätze 758 Millionen Transistoren in 32nm
AMD Llano 4C 4 Rechenkerne, 1 MB Level2-Cache je Kern, kein Level3-Cache, DualChannel-Speicherinterface bis DDR3/1866, CPU-Befehlssatzerweiterungen bis SSE4a, integrierte AMD-Grafik mit 400 VLIW5 Shader-Einheiten, Sockel FM1, 70er Chipsätze 1450 Millionen Transistoren in 32nm auf 228mm² Die-Fläche
Sandy Bridge 2C+GT1 2 Rechenkerne + HyperThreading, 256 kByte Level2-Cache pro Kern, 4 MB shared Level3-Cache, DualChannel-Speicherinterface bis DDR3/1333, CPU-Befehlssatzerweiterungen bis SSE 4.2 & AVX, integriertes Intel-Grafik mit 6 Shader-Einheiten, Sockel 1155, 6er Chipsatz-Serie 504 Millionen Transistoren in 32nm auf 131mm² Die-Fläche
Sandy Bridge 2C+GT2 2 Rechenkerne + HyperThreading, 256 kByte Level2-Cache pro Kern, 4 MB shared Level3-Cache, DualChannel-Speicherinterface bis DDR3/1333, CPU-Befehlssatzerweiterungen bis SSE 4.2 & AVX, integriertes Intel-Grafik mit 12 Shader-Einheiten, Sockel 1155, 6er Chipsatz-Serie 624 Millionen Transistoren in 32nm auf 149mm² Die-Fläche
Sandy Bridge 4C 4 Rechenkerne + HyperThreading, 256 kByte Level2-Cache pro Kern, 8 MB shared Level3-Cache, DualChannel-Speicherinterface bis DDR3/1333, CPU-Befehlssatzerweiterungen bis SSE 4.2 & AVX, integriertes Intel-Grafik mit 12 Shader-Einheiten, Sockel 1155, 6er Chipsatz-Serie 995 Millionen Transistoren in 32nm auf 216mm² Die-Fläche

Mit der direkten Verwandschaft zu diesen CPUs übernimmt Llano leider auch ein paar deren kleiner Nachteile: Denn weiterhin fehlen SSE 4.1 und 4.2 (unterstützt wird nur das originale SSE4 in der AMD-Variante SSE4a), sowie die neuere CPU-Befehlssatzerweiterung AVX und die Krytobeschleunigung AES-NI (kommt erst bei Bulldozer). Dafür hat Llano einen Turbo-Modus erhalten, der sich auf dem Papier sehen lassen kann: Bei den Mobile-Prozessoren können einzelne Rechenkerne bis zu 900 MHz mehr Takt durch TurboCore 2.0 bekommen, wenn nötig und innerhalb der festgesetzten Höchsttemperaturen realisierbar. Leider hat AMD derzeit nur den TurboCore-Höchsttakt zu seinen Llano-Prozessoren herausgegeben und keine Informationen zu den exakten Taktabstufungen.

Desktop-Portfolio Technik integrierte Grafik TDP
A8-3850 4 Rechenkerne, 4 MB Level2-Cache insgesamt, 2.9 GHz (kein TurboCore), bis DDR3/1866, Sockel FM1 Radeon HD 6550D mit 400 Shader-Einheiten, 20 TMUs und 8 ROPs @ 600 MHz 100W
A8-3800 4 Rechenkerne, 4 MB Level2-Cache insgesamt, 2.4 GHz (TurboCore max. 2.7 GHz), bis DDR3/1866, Sockel FM1 Radeon HD 6550D mit 400 Shader-Einheiten, 20 TMUs und 8 ROPs @ 600 MHz 65W
A6-3650 4 Rechenkerne, 4 MB Level2-Cache insgesamt, 2.6 GHz (kein TurboCore), bis DDR3/1866, Sockel FM1 Radeon HD 6530D mit 320 Shader-Einheiten, 16 TMUs und 8 ROPs @ 443 MHz 100W
A6-3600 4 Rechenkerne, 4 MB Level2-Cache insgesamt, 2.1 GHz (TurboCore max. 2.4 GHz), bis DDR3/1866, Sockel FM1 Radeon HD 6530D mit 320 Shader-Einheiten, 16 TMUs und 8 ROPs @ 443 MHz 65W
A4-3400 2 Rechenkerne, 1 MB Level2-Cache insgesamt, 2.7 GHz (kein TurboCore), bis DDR3/1600, Sockel FM1 Radeon HD 6410D mit 160 Shader-Einheiten, 8 TMUs und 4 ROPs @ 600 MHz 65W
E2-3200 2 Rechenkerne, 1 MB Level2-Cache insgesamt, 2.4 GHz (kein TurboCore), bis DDR3/1600, Sockel FM1 Radeon HD 6370D mit 160 Shader-Einheiten, 8 TMUs und 4 ROPs @ 443 MHz 65W
E2-450 2 Rechenkerne, 1 MB Level2-Cache insgesamt, 1.65 GHz (kein TurboCore), bis DDR3/1333, Sockel FT1 Radeon HD 6320 mit 80 Shader-Einheiten, 4 TMUs und 4 ROPs @ 508 MHz (TurboCore max. 600 MHz) 18W
E2-350D 2 Rechenkerne, 1 MB Level2-Cache insgesamt, 1.6 GHz (kein TurboCore), bis DDR3/1066, Sockel FT1 Radeon HD 6310 mit 80 Shader-Einheiten, 4 TMUs und 4 ROPs @ 492 MHz 22W
E2-300 2 Rechenkerne, 1 MB Level2-Cache insgesamt, 1.3 GHz (kein TurboCore), bis DDR3/1066, Sockel FT1 Radeon HD 6310 mit 80 Shader-Einheiten, 4 TMUs und 4 ROPs @ 488 MHz 18W
E2-240 1 Rechenkern, 512 kByte Level2-Cache insgesamt, 1.5 GHz (kein TurboCore), bis DDR3/1066, Sockel FT1 Radeon HD 6310 mit 80 Shader-Einheiten, 4 TMUs und 4 ROPs @ 500 MHz 18W

Der entscheidende Punkt von Llano liegt aber natürlich außerhalb des reinen CPU-Teils: AMD integriert bei Llano eine Grafiklösung mit immerhin 400 Shader-Einheiten, was man durchaus als Mainstream-Niveau betrachten kann. Die integrierte Grafik basiert dabei direkt auf dem RV840/Redwood-Chip der Radeon HD 5500/5600 Grafikkarten (ebenfalls 400 Shader-Einheiten), im Gegensatz zu diesen verfügt Llano allerdings über die neuere UVD3-Videoeinheit der aktuellen Northern Islands Grafikchip-Generation. AMD setzt diese integrierte Grafik in sehr verschiedenen Größen von 80 bis 400 Shader-Einheiten an, so daß bei jeglicher Diskussion über die Leistungsfähigkeit der integrierten Llano-Grafik immer beachtet werden muß, über welche Grafiklösung man genau spricht.

Die integrierte Llano-Grafik kann mit den DirectX11-Grafiklösungen von AMD zudem einen CrossFire-Verbund eingehen, wobei auch nicht leistungsgleiche Grafikkarten verbaut sein können (allerdings maximal doppelt so schnelle Grafiklösungen wie die integrierte Llano-Grafik). Einen wirklichen Sinn ergibt dieses Feature für uns allerdings nicht: Wenn man wirklich mehr Performance wünscht, gibt es im Desktop mehr als reichlich erstklassige Angebote – und im Mobile-Bereich nimmt eine zusätzliche Grafiklösung den Llano-Effekt der guten Grafikperformance bei gleichzeitig hoher Akkulaufzeit wieder weg.

Mobile-Portfolio Technik integrierte Grafik TDP
A8-3530MX 4 Rechenkerne, 4 MB Level2-Cache insgesamt, 1.9 GHz (TurboCore max. 2.6 GHz), bis DDR3/1600 Radeon HD 6620G mit 400 Shader-Einheiten, 20 TMUs und 8 ROPs @ 444 MHz 45W
A8-3500M 4 Rechenkerne, 4 MB Level2-Cache insgesamt, 1.5 GHz (TurboCore max. 2.4 GHz), bis DDR3/1333 Radeon HD 6620G mit 400 Shader-Einheiten, 20 TMUs und 8 ROPs @ 444 MHz 35W
A6-3410MX 4 Rechenkerne, 4 MB Level2-Cache insgesamt, 1.6 GHz (TurboCore max. 2.3 GHz), bis DDR3/1600 Radeon HD 6520G mit 320 Shader-Einheiten, 16 TMUs und 8 ROPs @ 400 MHz 45W
A6-3400M 4 Rechenkerne, 4 MB Level2-Cache insgesamt, 1.4 GHz (TurboCore max. 2.3 GHz), bis DDR3/1333 Radeon HD 6520G mit 320 Shader-Einheiten, 16 TMUs und 8 ROPs @ 400 MHz 35W
A4-3310MX 2 Rechenkerne, 2 MB Level2-Cache insgesamt, 2.1 GHz (TurboCore max. 2.5 GHz), bis DDR3/1333 Radeon HD 6480G mit 160 Shader-Einheiten, 8 TMUs und 4 ROPs @ 444 MHz 45W
A4-3300M 2 Rechenkerne, 2 MB Level2-Cache insgesamt, 1.9 GHz (TurboCore max. 2.5 GHz), bis DDR3/1333 Radeon HD 6480G mit 160 Shader-Einheiten, 8 TMUs und 4 ROPs @ 444 MHz 35W
E2-3300M 2 Rechenkerne, 1 MB Level2-Cache insgesamt, 1.8 GHz (TurboCore max. 2.2 GHz) Radeon HD 6380G mit 160 Shader-Einheiten, 8 TMUs und 4 ROPs 35W

Die integrierte Grafik schlägt sich trotz des Weglassens eines Level3-Caches dann deutlich in der Anzahl der Transistoren nieder: Satte 1,45 Milliarden verbraucht die Vierkern-Variante von Llano – deutlich mehr als bei anderen CPUs, sogar mehr als bei Intels Sechskern-Prozessoren (Gulftown mit 1,17 Mrd. Transistoren). Das Prozessoren-Die ist mit 228mm² allerdings nicht deutlich größer als jenes von Sandy Bridge (216mm²), insofern ist AMD diesbezüglich noch gerade so im Rahmen. Daneben wird es noch eine dedizierte Zweikern-Variante von Llano geben, welche allerdings noch nicht marktreif ist – für den Augenblick werden alle Zweikern-Llanos aus teildeaktivierten Vierkern-Dies gewonnen.

Bei der Taktrate scheint Llano zudem derzeit noch ein Problem zu haben: Während die vorhergehenden Phenom II Prozessoren in 45nm weit über 3 GHz takten und ein ähnlicher Takt seitens AMD auch für Llano geplant war, kommt Llano in 32nm derzeit auf maximal 2.9 GHz – und dies bei einer TDP von gleich 100 Watt. Man munkelt, daß AMD derzeit an weiteren Steppings für Llano arbeitet, um das ursprüngliche Taktziel wieder anpeilen zu können. Deswegen kam wohl jetzt auch der Launch der Mobile-Prozessoren zuerst – weil diese wegen der geringeren TDP sowieso keine besonders hohen Taktfrequenzen gehen können.