Die Spezifikationen zur GeForce GTX 460 (Nachträge)

Mittwoch, 23. Juni 2010

/ von Leonidas

Nachtrag vom 24. Juni 2010

Die vorgenannte Quelle in Form des Heise Newstickers hat die Anzahl der Textureneinheiten der GeForce GTX 460 zwar nicht explizit erwähnt, aus der angegebenen Texturierleistung von 37,8 GPix/sec ergibt sich auf dem Chiptakt von 675 MHz jedoch eindeutig die Anzahl von 56 aktiven TMUs bei der GeForce GTX 460 – und damit klar mehr als bei der GF100-basierten GeForce GTX 465 mit deren 44 TMUs. Sofern man davon ausgeht, daß der GF104-Chip im Vollausbau über 384 Shader-Einheiten verfügt, würde dieser dann auch 64 Textureneinheiten im Vollausbau haben – genausoviel im übrigen wie der GF100-Chip im Vollausbau.

nVidia hat damit an den Shader-Clustern des GF100-Chip herumgewerkelt – mit dem Resultat, daß einer dieser Shader-Cluster nicht mehr 32 Shader-Einheiten und 4 TMUs wie noch beim GF100-Chip trägt, sondern beim GF104-Chip ein Shader-Cluster wahrscheinlich 24 Shader-Einheiten und 4 TMUs umfaßt. Ganz sicher ist dies nicht, es könnte auch ein Modell mit 48 Shader-Einheiten und 8 TMUs sein – dies würde allerdings eine etwas größere Anpassungsarbeit erfordern und zudem die Tesselations-Leistung bei den kommenden kleineren Fermi-Chips minimieren. Denn schließlich verfügt jeder der Shader-Cluster über seine eigene Tesselationseinheit, was die starke Tesselations-Leistung der GF100-basierten Grafikkarten erklärt. Mit dem GF104-Chip und dem Modell von 24 Shader-Einheiten samt 4 TMUs in einem Shader-Cluster würde nVidia die Tesselations-Leistung relativ gesehen sogar steigern, da bei diesem Modell die Anzahl der Shader-Cluster und damit der Tesselationseinheiten zwischen GF100- und GF104-Chip mit 16 identisch wäre.

Der GF104-Chip hätte in diesem Modell (taktnormiert) keine höhere Tesselationsleistung als der GF100-Chip, aber immerhin die gleiche – was angesichts der geringeren Anzahl an Shader-Einheiten und des niedrigeren Preispunkte entsprechender Grafikkarten auch beachtbar ist. Wie gesagt gibt es hier auch einen Gegenentwurf, wo ein GF104 Shader-Cluster aus 48 Shader-Einheiten und 8 TMUs besteht, in diesem hätte der GF104-Chip dann nur 8 Shader-Cluster sowie 8 Tesselationseinheiten, ergo die Hälfte des GF100-Chips. Dies ist eine denkbare Variante, weil sie Transistoren spart, allerdings untergräbt sie die mittel- und langfristigen Aussichten von DirectX11-Tesselation etwas: Denn bei den kleineren Fermi-Abwandlungen GF106 und GF108 werden natürlich entsprechend weniger Shader-Cluster verbaut werden, je nach Denkmodell beim GF108-Chip um den Faktor 3 oder 4 weniger.

Bei einer gegenüber dem GF100-Chip abgesenkten Tesselationsleistung des GF104-Chips würde der GF108-Chip dann bei einer Tesselationsleistung von nur noch 1/6 oder 1/8 zum GF100-Chip landen – und damit nominell auf dem Niveau von ATIs RV870/Cypress-Chip, der in dieser Frage bekannterweise als unmodern gilt, was ATI auch mit der nachfolgenden Southern-Islands-Generation entscheidend ändern will. Dies aber würde nVidias Ansinnen konterkarieren, mit der Fermi-Generation eine durchgehend überzeugende Tesselationsleistung zu bieten – vor allem, weil Tesselation ein Feature ist, welches sich schlecht zwischen Grafikchips verschiedener Preissegmente skalieren läßt. Denn während die bei LowCost-Grafikchips üblicherweise benutzte kleinere Auflösung oder/und der Verzicht auf Anti-Aliasing die Leistungsanforderungen an diesen Chip derart absenken, daß auch dieser kleinere Chip noch moderne Spiele ableisten kann, lassen sich mit diesen Maßnahmen die Anforderungen an die Tesselation kaum senken.

GF104	GF100
Shader-Cluster mit 24 Shader-Einheiten, 4 Textureneinheiten und einer Tesselationseinheit pro Shader-Cluster	Shader-Cluster mit 32 Shader-Einheiten, 4 Textureneinheiten und einer Tesselationseinheit pro Shader-Cluster
Verhältnis SM zu TMU 6:1	Verhältnis SM zu TMU 8:1
taktnormiert 33 Prozent höhere Texturier- und Tesselations-Leistung des GF104-Chips gegenüber dem GF100-Chip pro Shader-Einheit	taktnormiert 33 Prozent höhere Shader-Leistung des GF100-Chips gegenüber dem GF104-Chip pro Shader-Cluster

Sprich: Ob LowCost-Grafikkarte auf niedriger Auflösung oder HighEnd-Grafikkarte auf hoher Auflösung mit Anti-Aliasing, die Anforderungen an beide Grafikkarten bezüglich der Tesselationsleistung sind immer dieselben (sofern man nicht den Tesselationsgrad heruntersetzt, was aber den Sinn von Tesselation untergräbt). Wenn man DirectX11-Tesselation als durch die Spieleentwickler breit genutztes Feature durchsetzen will, müssen demzufolge auch die LowCost- und Mainstream-Grafikkarten über eine ausreichende Tesselationsleistung verfügen. Daß diese bei LowCost-Grafikkarten nie ganz so hoch sein kann wie bei HighEnd-Grafikkarten, ist klar, aber das vorhin genannte Verhältnis von 1/6 bis 1/8 der Tesselationsleistung des GF100-Chips beim GF108-Chip erscheint als zu niedrig für diese Anforderung.

Sofern nVidia es also Ernst meint mit der hohen Tesselationsleistung bei der Fermi-Generation, sollten der Abschlag der LowCost- und Mainstream-Modelle bei der Tesselationsleistung nicht zu hoch ausfallen, was letztlich dem Modell mit 24 Shader-Einheiten und 4 TMUs in einem Shader-Cluster bei GF104, GF106 und GF108 in die Hände spielt – dann hätte der GF108-Chip immerhin noch 1/3 oder 1/4 der Tesselationsleistung des GF100-Chips. Letztlich entspricht dies auch dem Grundgedanken des GF104-Chips, welcher bei diesem Modell der Shader-Cluster mehr Texturierleistung und mehr Tesselationsleistung pro Shaderleistung gegenüber dem GF100-Chip auf die Waage bringt – alles vorteilhaft für die noch folgenden kleineren Grafikchips der Fermi-Generation. Was gleich auch das Stichwort für die nächste offene Frage ist: Mit welcher Anzahl an Shader-Einheiten die Chips GF106 und GF108 antreten werden.

Hierzu sind wir bisher von glatten Halbierungen des GF104-Chips ausgegangen, den wir wie gesagt auf 384 Shader-Einheiten im Vollausbau einschätzen: Beim GF106 wären dies dann 192 Shader-Einheiten und beim GF108 ergo 96 Shader-Einheiten. Es gibt hierzu aber auch andere denkbare Modelle – wenngleich das hier und da genannte Modell mit 256 Shader-Einheiten für den GF106 und 128 Shader-Einheiten beim GF108 zwar auf den ersten Blick rund aussieht, aber technisch nahezu unmöglich ist: Alle Rechen-Einheiten im GF104-Chip müssten hierfür um den Faktor 1,5 (GF106) bzw. 3 (GF108) geteilt werden, was schon allein bei den Textureneinheiten scheitert: 64 TMUs lassen sich nunmal schlecht durch 1,5 oder 3 teilen. Allerdings ist die zugrundeliegende Idee einer näheren Zusammenrückung der Chips GF104, GF106 und GF108 nicht so abwegig und auch die Stückelungen 1/1,5 und 1/3 sind doch machbar.

	Modell 1 Stückelung 1/2/4	Modell 2 Stückelung 1/1,5/3
GF104	4 Raster Engines, 384 Shader-Einheiten, 64 TMUs, 32 ROPs, 256 Bit DDR Interface (bis GDDR5)	3 Raster Engines, 360 Shader-Einheiten, 60 TMUs, 32 ROPs, 256 Bit DDR Interface (bis GDDR5)
GF106	2 Raster Engines, 192 Shader-Einheiten, 32 TMUs, 24 ROPs, 192 Bit DDR Interface (bis GDDR5)	2 Raster Engines, 240 Shader-Einheiten, 30 TMUs, 24 ROPs, 192 Bit DDR Interface (bis GDDR5)
GF108	1 Raster Engine, 96 Shader-Einheiten, 16 TMUs, 16 ROPs, 128 Bit DDR Interface (bis GDDR5)	1 Raster Engine, 120 Shader-Einheiten, 20 TMUs, 16 ROPs, 128 Bit DDR Interface (bis GDDR5)

Dafür müsste der GF104-Chip im Vollausbau nicht mit 384 Shader-Einheiten und 64 TMUs antreten, sondern schlicht "nur" mit 360 Shader-Einheiten und 60 TMUs. Die beiden letztgenanten Werte lassen sich perfekt durch 1,5 oder 3 teilen, so daß der GF106-Chip dann mit 240 Shader-Einheiten und 40 TMUs sowie der GF108 mit 120 Shader-Einheiten und 20 TMUs antreten könnte. Alle diese genannten Werte würden im übrigen perfekt zu Shader-Clustern mit jeweils 24 Shader-Einheiten und 4 TMUs passen (bei 360 Shader-Einheiten für den GF104-Chip ist gar nur noch dieses Modell möglich), alle entsprechenden Verhältnisse der Einheiten untereinander ergeben ganze Zahlen, sind also technisch machbar. Es bleibt natürlich abzuwarten, welche Anzahl an Hardware-Einheiten nVidia diesen Chips wirklich mit auf den Weg gegeben hat, denkbar sind derzeit wie gesagt die Varianten 384-192-92 oder 360-240-120, nicht aber 384-256-128 (Anzahl der Shader-Einheiten, jeweils in der Reihenfolge GF104-GF106-GF108).

Nachtrag vom 26. Juni 2010

Unter tatkräftiger Mithilfe der Diskussion zu den mittwöchlichen News läßt sich in Korrektur zu diesen sagen, daß die Shader-Cluster des GF104-Chips ziemlich sicher mit 48 Shader-Einheiten (und nicht mit 24) bestückt sind, weil nur diese Zahl zu den verschiedenen kleinen Details der Fermi-Architektur passt: So muß die Anzahl der Shader-Einheiten pro Shader-Cluster immer durch 16 teilbar sein (was auf 24 nun einmal nicht zutrifft), da die Shader-Einheiten bei nVidia nicht einzelne Einheiten, sondern eigentlich Vector16-SIMD-Einheiten sind, also immer 16 Shader-Prozessoren in einer Hardware-Einheit liegen. Da zudem das Verhältnis an Shader-Einheiten zu Textureneinheiten bekannt ist (6:1 beim GF104-Chip), bleibt als einzige mögliche Auflösung nunmehr noch noch ein Modell mit 48 Shader-Einheiten (sprich drei Vec16-Einheiten) und 8 TMUs in einem Shader-Cluster.

Shader-Cluster von GF100 und GF104 (aktualisiert)

Dieses Modell der GF104 Shader-Cluster hat dann auch andere Auswirkungen: So wird der GF104-Chip im Vollausbau nunmehr sicher 384 Shader-Einheiten und 64 TMUs besitzen, ein Modell mit 360 Shader-Einheiten ist nicht mehr möglich (weil diese Zahl nicht durch 48 teilbar ist). Für die nächstkleineren Chips GF106 und GF108 ergeben sich zudem die schon bekannten zwei Modelle: Entweder mit einer klaren Halbierung, wobei der GF106-Chip 196 Shader-Einheiten samt 32 TMUs und der GF108-Chip dann 96 Shader-Einheiten samt 16 TMUs hätte – oder aber ein Modell mit stärkerem GF106-Chip, wobei dieser auf 240 oder 288 Shader-Einheiten und der GF108-Chip dann auf 96 oder 144 Shader-Einheiten daherkommen würde. Da alle Chipgrößen (inklusive auch möglicher abgespeckter Kartenvarianten) immer durch 48 teilbar sein müssen, ergeben sich hier gar nicht all zu viele mögliche Varianten (48-96-144-192-240-288 Shader-Einheiten).

Dies setzt natürlich voraus, daß der Aufbau der Shader-Cluster bei den kleineren Chips GF106 und GF108 zum GF104-Chip identisch ist – wovon aber auszugehen ist, weil eine Neukonzeption der Shader-Cluster bei jedem einzelnen Grafikchip zu viel Entwicklungszeit und -kosten verschlingt. Der Vorteil der neuen Shader-Cluster mit den relativ vielen Shader-Einheiten würde sein, daß damit relativ gesehen weniger Einheiten verbaut würden, die direkt zum Cluster gehören – sprich, Caches, Register, Scheduler und die Polymorph-Engine. Dies spart Transistoren, was der Wirtschaftlichkeit der kleineren Grafikchips zugute kommt. Nachteiligerweise könnte damit aber auch die Tesselationsleistung wie schon angedacht bei den kleineren Grafikchips erheblich absinken: Wenn weiterhin eine Tesselationseinheit pro Shader-Cluster verbaut wird, dann hat der GF108-Chip vermutlich nur zwei Tesselationseinheiten im ganzen Chip, was gerade einmal ein Achtel der Anzahl beim GF100-Chip wäre.

	GF108	GF106	GF104	GF100
Chipbasis	nVidia GF108, 40nm	nVidia GF106, 40nm	nVidia GF104, grob 2000 Millionen Transistoren in 40nm auf grob 300mm² Die-Fläche	nVidia GF100, 3000 Millionen Transistoren in 40nm auf 529mm² Die-Fläche
Shader-Cluster	48 Shader-Einheiten und 8 TMUs, eine Polymorph Engine mit einer oder zwei Tesselationseinheiten			32 Shader-Einheiten und 4 TMUs, eine Polymorph Engine mit einer Tesselationseinheit
Tesselation	1/8 oder 1/4 GF100	1/4 oder 1/2 GF100	1/2 oder 1/1 GF100	100%
Einheiten	mehrere mögliche Varianten: 2 Shader-Cluster mit insgesamt 96 Shader-Einheiten und 16 TMUs 3 Shader-Cluster mit insgesamt 144 Shader-Einheiten und 24 TMUs	mehrere mögliche Varianten: 4 Shader-Cluster mit insgesamt 192 Shader-Einheiten und 32 TMUs 5 Shader-Cluster mit insgesamt 240 Shader-Einheiten und 40 TMUs 6 Shader-Cluster mit insgesamt 288 Shader-Einheiten und 48 TMUs	8 Shader-Cluster mit insgesamt 384 Shader-Einheiten und 64 TMUs	4 Raster Engines, 16 Shader-Cluster mit insgesamt 512 Shader-Einheiten und 64 TMUs
Interface	16 ROPs, 128 Bit DDR (bis GDDR5)	24 ROPs, 192 Bit DDR (bis GDDR5)	32 ROPs, 256 Bit DDR (bis GDDR5)	48 ROPs, 384 Bit DDR (bis GDDR5)

Dies wäre für die Durchsetzung von DirectX11-Tesselation eher ungünstig, weil die Spieleentwickler sich nun einmal oft nach dem kleinsten gemeinsamen Nenner richten und dieser dann die Tesselationsleistung des dutzendmillionenfach verbauten GF108-Chips wäre – welcher gerade einmal auf der (eher schwachen) Tesselationsleistung des RV870/Cypress-Chips von ATI rangieren würde. Damit steht zu befürchten, daß die hohe Tesselationsleistung der Performance- und HighEnd-Modelle von nVidias Fermi- und ATIs Southern-Islands-Generation zu Lebzeiten der entsprechenden Grafikkarten kaum in der Spielepraxis abgerufen wird. Allerdings ist dieser Punkt wie gesagt noch nicht endgültig, eventuell verbaut nVidia bei den Shader-Clustern der Grafikchips GF104, GF106 und GF108 ja auch die doppelte Anzahl an Tesselationseinheiten, dies ist derzeit schlicht noch offen. In jedem Fall fügt sich das Bild zu diesen Grafikchips nun langsam zusammen – und ab dem 12. Juli wissen wir dann (mit dem Launch der GeForce GTX 460) sowieso genau Bescheid zum GF104-Chip.

Nachtrag vom 2. Juli 2010

Gemäß Fudzilla deutet sich ein Preis der GeForce GTX 460 768MB von sogar minimal unterhalb von 200 Euro an, während die GeForce GTX 460 1024MB mit 230 Euro klar höher angesetzt ist. Der Preisunterschied geht hierbei allerdings in Ordnung, da die 1024-MB-Version wie bekannt über das größere Speicherinterface und damit – auch abseits des Mehrspeichers – über mehr Durchschlagskraft verfügt. Sollten sich diese Preise für die am 12. Juli zu erwartenden Karten in der Praxis bestätigen, dürfte die GeForce GTX 465 in jedem Fall unattraktiv werden – oder müsste auf unter 230 Euro absinken, denn eine GeForce GTX 460 1024MB ist bezüglich der Spezifikationen einer GeForce GTX 465 in allen Punkten überlegen. Vermutlich reicht es auch schon für die GeForce GTX 464 768MB aus, um sich erfolgreich mit der GeForce GTX 465 anzulegen – und ob nVidia letztere Karte wirklich auf unter 200 Euro preissenken will, wäre zu bezweifeln.

	GeForce GTX 460 768MB	GeForce GTX 460 1024MB	GeForce GTX 465
Chipbasis	nVidia GF104, grob 2000 Millionen Transistoren in 40nm auf grob 300mm² Die-Fläche		nVidia GF100, 3000 Millionen Transistoren in 40nm auf 529mm² Die-Fläche
	DirectX 11, 336 Shader-Einheiten, 56 TMUs, 24 ROPs, 192 Bit DDR Interface (bis GDDR5)	DirectX 11, 336 Shader-Einheiten, 56 TMUs, 32 ROPs, 256 Bit DDR Interface (bis GDDR5)	DirectX 11, 3 Raster Engines, 352 Shader-Einheiten, 44 TMUs, 32 ROPs, 256 Bit DDR Interface (bis GDDR5)
Taktraten	675/1350/1800 MHz	675/1350/1800 MHz	607/1215/1603 MHz
Rechenleistung	907,2 GFlops	907,2 GFlops	855,4 GFlops
Texturierleistung	37,8 GTex/sec	37,8 GTex/sec	26,1 GTex/sec
ROP-Leistung	16,2 GPix/sec	21,6 GPix/sec	19,4 GPixe/sec
Bandbreite	86,4 GB/sec	115,2 GB/sec	102,6 GB/sec
TDP	150W	160W	200W
Preisbereich	ca. 190-200 Euro	ca. 230 Euro	250-270 Euro

Viel spannender dürfte aber der Vergleich gegenüber den ATI-Karten dieses Preisfeldes werden – weil die GeForce GTX 460 durchaus das Potential zu haben scheint, da einiges durcheinanderzuwirbeln. Ausgehend von der bekannten Performance der GeForce GTX 465 läßt sich sagen, das eine GeForce GTX 460 768MB wahrscheinlich der Radeon HD 5830 geringfügig überlegen sein dürfte. Da die nVidia-Karte dann zudem vermutlich auch noch etwas günstiger angeboten werden wird, muß ATI in dieser Frage etwas tun und die Preise der Radeon HD 5830 nachhaltig unterhalb die 200-Euro-Marke schicken. Die GeForce GTX 460 1024MB mit ihrer vermutlich etwas besseren Performance gegenüber der GeForce GTX 465 dürfte dagegen schon so nahe an der Radeon HD 5850 liegen (vielleicht 10 Prozent Abstand, vielleicht auch noch etwas weniger), daß der hohe Preis der Radeon HD 5850 von kaum unter 270 Euro unter Druck geraten dürfte und ATI diesen dann womöglich etwas zurückdrehen muß.

So gesehen könnte der Launch der GeForce GTX 460 sogar eingefleischten ATI-Usern zum Vorteil gereichen – in jedem Fall scheint die GeForce GTX 460 in ihren beiden Ausführungen deutlich neuen Schwung in den Markt zu bringen. HT4U fügen dann noch an, daß es voraussichtlich nur die GeForce GTX 460 768MB als nVidia-Referenzdesign geben wird, während bei der GeForce GTX 460 1024MB ausschließlich Eigenentwicklungen der einzelnen Grafikkartenhersteller antreten werden. Dies würde auch erklären, wieso anfänglich die GeForce GTX 460 nur als Variante mit 768 MB Speicher und 192 Bit DDR Speicherinterface bekannt war und die zweite Variante mit 1024 MB Speicher und 256 Bit DDR Speicherinterface erst recht spät bekannt wurde.

Nachtrag vom 5. Juli 2010

Beim Geizhals-Preisvergleich gibt es inzwischen einige Listungen zur Asus ENGTX460/2DIS/768MD5, einer GeForce GTX 460 mit 768 MB Grafikkartenspeicher seitens Asus. Die derzeit veranschlagten Preise liegen dabei zwischen 205 und 220 Euro, was für Vorab-Listungen doch schon ganz ansprechend ist – somit ist es durchaus wahrscheinlich, daß in den Tagen nach dem Launch diese Karte bei unter 190 Euro landen kann. Interessanterweise nennt die Geizhals-Webseite 42 Textureneinheiten bei der GeForce GTX 460, was gegen die Vorab-Vermutungen von 56 TMUs spricht, allerdings nicht unmöglich erscheint: nVidia könnte die GF104-Textureneinheiten einfach mit einer um 33 Prozent höheren Taktraten laufen lassen, um auf die vom Heise Newsticker gemeldete höhere Texturierpower zu kommen – ähnlich wie man es beim GF100-Chip der GeForce GTX 465, 470 & 480 Karten vorgehabt hatte, es dann aber vermutlich aus Gründen der Leistungsaufnahme nicht in die Tat umgesetzt hat.

Möglich ist natürlich auch ein Irrtum seitens des Geizhals-Preisvergleichs und es bleibt bei den vorab prognostizierten 56 Textureneinheiten bei der GeForce GTX 460 – an der höheren relativen Texturierpower des GF104-Chips gegenüber dem GF100-Chip würde dies sowieso nichts ändern. Mit einem 42prozentigem Vorteil in dieser Kategorie bewaffnet (zuzüglich einer 6 Prozent höhere Shaderleistung und 12 Prozent mehr Bandbreite bei der 1024-MB-Version) sollte die GeForce GTX 460 problemlos die GeForce GTX 465 überrunden und diese damit effektiv aus dem Markt verdrängen. So wie man hört, wird nVidia die GeForce GTX 465 auch nicht entsprechend im Preis absenken, sondern diese Karte mit dem Erscheinen der GeForce GTX 460 komplett aus dem Markt nehmen – die GeForce GTX 465 wird demzufolge nur eine rekordverdächtig niedrige Verkaufsspanne haben.