22

Spezifikations-Vergleich Intel Xeon Phi 7200 vs. nVidia Tesla P100

Mit der Vorstellung von Intels neuem Xeon Phi Prozessor auf Knights-Landing-Basis in Konkurrenz zu nVidias GP100-Chip lohnt nunmehr wieder einmal ein Vergleich der verschiedenen HPC-Ansätze der entsprechenden Hersteller – derzeit noch ohne AMD, denn deren entsprechendes Vega-11-Projekt dürfte erst im nächsten Jahr spruchreif werden. Intel hat mit "Knights Landing" mal wieder einen echten Monsterchip mit einer Chipfläche von ~700mm² unter der 14nm-Fertigung hingelegt – und in diese bis zu 76 physikalische Rechenkerne einer hochgeschraubten Silvermont-Architektur gesteckt, womit diese eigentlich für LowPower-Prozessoren gedachte Atom-Architektur einen interessanten Zweitnutzen erfährt. Wie bei nVidias Tesla P100 können die aktuellen Xeon Phi 7200 Lösungen die vorhandene Hardware aus Ausbeutegründen jedoch nicht komplett ausnutzen – die Tesla P100 kommt mit nur 3584 freigeschalteten von 3840 physikalisch vorhandenen Shader-Einheiten daher, Xeon Phi hingegen mit (je nach Modell) zwischen 64 und 72 freigeschalteten von 76 physikalisch vorhandenen x86-Rechenkernen:

Xeon Phi 7200 Tesla P100
Chipbasis Intel Knights Landing, ~8 Mrd. Transistoren in 14nm auf ~700mm² Chipfläche nVidia GP100, 15,3 Mrd. Transistoren in 16nm auf 610mm² Chipfläche
Technik bis zu 72 Silvermont-basierte x86-Rechenkerne (physikalisch 76 vorhanden) an einem HMC-Speicherinterface sowie einem Sechskanal-DDR4-Speicherinterface, 64 FMA pro Takt & Rechenkern, SP/DP-Verhältnis von 2:1 bis zu 3584 Shader-Einheiten (physikalisch 3840 vorhanden) an einem 4096 Bit HBM2-Speicherinterface, 2 FMA pro Takt & Shader-Einheit, HP/SP/DP-Verhältnis von 4:2:1
bootbar
gesockelt/Steckkarte / /
Interconnect Omni-Path NVLink (gesockelt, nur für IBM Power8+ & Power9) bzw. PCI Express (Steckkarte)
Taktraten bis zu 1500 MHz bis zu 1328/1480/~700 MHz
Speicher 16 GB HMC 12-16 GB HBM2
HalfPrecision ? bis zu 21 TFlops
SinglePrecision mehr als 6 TFlops bis zu 10,6 TFlops
DoublePrecision mehr als 3 TFlops bis zu 5,3 TFlops
Bandbreite bis zu 500 GB/sec (HMC) zuzüglich bis zu 115 GB/sec (DDR4) bis zu 720 GB/sec
TDP bis zu 245 Watt bis zu 300 Watt
Varianten Xeon Phi 7210, Xeon Phi 7230, Xeon Phi 7250, Xeon Phi 7290 Tesla P100 for PCIe, Tesla P100 for NVLink

Trotz enormen Aufwands seitens Intels liegt man weiterhin bei den nominellen Rechenleistungen klar gegenüber nVidia zurück – und nVidia lag in dieser Frage zuletzt auch gegenüber AMD zurück, insofern kann man durchaus abwarten, was AMD hierzu noch beizutragen haben wird. Zudem hat nVidia bei der Speicherbandbreite stark aufgeholt und kann nun sogar mehr Speicherbandbreite als Xeon Phi liefern. Mit NVLink hat man zudem eine eigene, hochbandbreitige Interconnect-Technologie zur Verfügung – welche allerdings noch den Nachteil hat, nur von einigen Prozessoren (IBM Power8+ & Power9) unterstützt zu werden. Intels Omni-Path erscheint da etwas eleganter, da sich jenes per Steckkarte nachrüsten läßt.

Aber wer hier gewinnt und wer verliert, läßt sich sowieso nicht anhand der Spezifikations-Aufzählung (und auch nicht der Preispunkte, die bei nVidia leider unbekannt sind) ermessen – da zählt eher die Eignung der jeweiligen Hardware für das konkrete Hardware-Projekt, welches mit seinen speziellen Anforderungen ganz automatisch den einen oder anderen Ansatz bevorteilen dürfte. Bislang haben AMD und nVidia dem Ansturm von Intels GPGPU-Beschleunigern noch ganz gut standgehalten, insbesondere nVidia ist zu einer bekannten Hausnummer bei Supercomputer-Beschleunigern geworden. Doch Intel hat natürlich die Reserven, sein ehemaliges Larrabee-Projekt auch erst ganz langfristig zum Erfolg zu führen – gerade da jenes aufgrund fehlender Marketing- und Rabattkosten kaum so kostspielig sein dürfte wie der mißlungene Ausflug ins Segment der Smartphone-Prozessoren.