Search

Instinct MI250X: AMDs Chiplet-Beschleuniger leistet irre viel - Golem.de - Golem.de

Sie ist die erste AMD-Karte mit Chiplets plus 3D-Stacks: Die Instinct MI250X weist eine enorm hohe Performance und Speicherkapazität auf.

Lisa Su zeigt das Package einer Instinct MI250X
Lisa Su zeigt das Package einer Instinct MI250X (Bild: AMD)

AMD hat die Instinct MI250 und die Instinct MI250X vorgestellt, zwei Beschleunigerkarten für Server und Supercomputer. Beide weisen eine exorbitant gestiegene Leistung zur bisherigen Instinct MI100 auf, denn die Rechengeschwindigkeit verdoppelt bis vervierfacht sich. Möglich wird dies durch das erste Chiplet-Design eines Beschleunigers, den AMD entwickelt hat.

Technische Grundlage der Instinct MI250(X), Codename Aldebaran, sind zwei miteinander durch ein 400 GByte/s flottes Infinity Fabric verknüpfte Dies (via Elevated Fanout Bridge, EFB). Sie werden mit TSCMs N6, also 6 nm EUV, gefertigt und weisen 29,1 Milliarden Transistoren auf. An dieser Stelle sei angemerkt, dass AMD von einem Grafikchip spricht. Tatsächlich aber fehlt die komplette 3D-Pipeline und es gibt es auch keine Display-Ausgänge.

Die beiden Chips werden von AMD als GCD (Graphics Compute Die) bezeichnet, ein jeder weist im Vollausbau erneut vier Shader Arrays für 128 Compute Units mit insgesamt 7.680 ALUs bei 1,7 GHz auf. Der L2-Cache fasst weiterhin 8 MByte, seine Bandbreite allerdings wurde verdoppelt - aus gutem Grund: Die Matrix Cores, ähnlich Nvidias Tensor Cores, liefern pro Takt zweifache oder vierfache Rate.

Vierfache FP64-Rate und Packed-FP32

Hierzu hat AMD die CDNA1-Technik durch die CDNA2-Generation ersetzt, was zusammen mit den beiden GCDs zu einer irrsinnig hohen theoretischen Rechenleistung führt: Die Instinct MI250X als Topmodell erreicht rund 96 Teraflops bei doppelter Genauigkeit (FP64), ohne die Matrix Cores sind es noch 48 Teraflops - die Instinct MI100 schafft nur 12 Teraflops und somit ein Achtel. Neu ist FP32 als Packed-Format und schnellere Berechnungen für künstliche Intelligenz, etwa BF16 oder INT8, so dass die Instinct MI250X das Vierfache der Instinct MI100 leistet.

  • Die Instinct MI250X hat 29,1 Milliarden Transistoren pro CNDA2-Chip. (Bild: AMD)
Die Instinct MI250X hat 29,1 Milliarden Transistoren pro CNDA2-Chip. (Bild: AMD)
Nvidia A100 (SXM4) Instinct MI100 Instinct MI250 Instinct MI250X
GPU (µArch) GA100 (Ampere) Arcturus (CDNA1) 2x Aldebaran (CDNA2) 2x Aldebaran (CDNA2)
Node 7N (TSMC) N7P (TSMC) N6 (TSMC) N6 (TSMC)
Transistoren 54,2 Milliarden 25,6 Milliarden 2x 29,1 Milliarden 2x 29,1 Milliarden
ALUs 6.912 (108 SMs) 7.680 (120 CUs) 13.312 (208) 14.080 (220 CUs)
Speicher 80 GByte HBM2 32 GByte HBM2 128 GByte HBM2e 128 GByte HBM2e
Bandbreite über 2 TByte/s 1,23 TByte/s 3,2 TByte/s 3,2 TByte/s
FP64 9,7 (19,5*) Teraflops 11,5 Teraflops 45,3 (90,5***) Teraflops 47,9 (95,7***) Teraflops
FP32 19,5 Teraflops 23,1 (46,2***) Teraflops 45,3 (90,5***) Teraflops 47,9 (95,7***) Teraflops
BF16 312 (624**) Teraflops 92,3 Teraflops*** 362 Teraops*** 383 Teraops***
FP16 312* (624**) Teraflops 184,6 Teraflops*** 362 Teraops*** 383 Teraops***
INT8 624* (1.248**) Teraops 184,6 Teraflops*** 362 Teraops*** 383 Teraops***
TDP 400 Watt 300 Watt 560 Watt 560 Watt
P2P-Link 600 GByte/s (NV Link 3.0) 276 GByte/s (3x IF Link) 800 GByte/s (8x IF Link) 600 GByte/s (68x IF Link)
Bauform SXM4 PCIe Gen4 OAM OAM
Technische Daten von AMDs Instinct MI250X *via Tensor Cores **mit Sparsity ***via Matrix Cores

Passend dazu ist jeder GCD mit doppelt so viel und schnellerem Speicher ausgestattet, denn AMD verwendet vier HBM2e-Stacks pro Chip. Aufaddiert ergibt das 128 GByte statt 32 GByte und eine Transferrate von 3,6 TByte/s anstelle 1,23 TByte/s, wenn die Instinct MI250X mit der Instinct MI100 verglichen wird. Allerdings handelt es sich nicht mehr um eine PCIe-Gen4-Karte mit 300 Watt, sondern um ein OAM (Open Compute Platform Accelerator Module) mit bis zu 560 Watt.

Die Nvidia A100 kann anteilig mithalten

Dieses Format ähnelt dem SXM4-Mezzanine-Modul einer Nvidia A100 mit 80 GByte Speicher, die sich mit 400 Watt vergleichsweise sparsam gibt. Bei den FP64/FP32-Werten ist die A100 chancenlos gegen die Instinct MI250X, bei BF16/INT8-Berechnungen hat das Nvidia-Modell mithilfe von dünnbesetzten Matrizen (Sparsity) aber Vorteile. AMD selbst sieht die Instinct MI250(X) deutlich vor der Nvidia A100, im Mittel soll die doppelt so flott sein.

AMD plant die Instinct MI250(X) in verschiedenen Konfigurationen einzusetzen, wobei die X-Version anders als die Instinct MI00 zusammen mit den eigenen Epyc-7003-CPUs sogar voll kohärent arbeiten kann. Hierzu werden vier statt acht der Accelerator-Module genutzt, die per Infinity Fabric untereinander und mit einem einzelnen Prozessor kommunizieren. Ein Beispiel dafür ist der Frontier, ein Exaflops-Supercomputer.

Die Instinct MI250(X) werden bereits ausgeliefert, eine Instinct MI210 als PCIe-Karte soll in Bälde folgen.

Adblock test (Why?)

Artikel von & Weiterlesen ( Instinct MI250X: AMDs Chiplet-Beschleuniger leistet irre viel - Golem.de - Golem.de )
https://ift.tt/3qmUATx
Wissenschaft & Technik

Bagikan Berita Ini

0 Response to "Instinct MI250X: AMDs Chiplet-Beschleuniger leistet irre viel - Golem.de - Golem.de"

Post a Comment

Powered by Blogger.