Wie viele optische Transceiver werden für eine GPU benötigt?

Auf dem Markt gibt es verschiedene Versionen des Verhältnisses von optischen Transceivern zur Anzahl von GPUs, und die Zahlen verschiedener Versionen sind nicht konsistent, hauptsächlich weil die Anzahl der erforderlichen optischen Module bei verschiedenen Netzwerkarchitekturen nicht gleich ist. Die tatsächliche Anzahl der verwendeten optischen Module hängt hauptsächlich von den folgenden Aspekten ab.

1) NIC-Modelle

Beinhaltet hauptsächlich zwei Arten von Netzwerkkarten, ConnectX-6 (200 Gbit/s, wird hauptsächlich mit dem A100 verwendet), wobei hauptsächlich optische Module verwendet werden MMA1T00-HS (200G Infiniband HDR QSFP56 SR4 PAM4 850 nm 100 m) und ConnectX-7 (400 Gbit/s, hauptsächlich verwendet mit H100).

ConnectX-6
ConnectX-7

2) Modell wechseln

Das ConnectX-8 800-Gbit/s-Switch-Modell der nächsten Generation umfasst hauptsächlich zwei Arten von Switches, die QM9700-Serie (32-Port-OSFP (2*400 Gbit/s), mit insgesamt 64 Kanälen bei 400 Gbit/s Übertragungsrate, insgesamt 51.2 Tbit/s Durchsatzrate) und die QM8700-Serie (40-Port QSFP56, mit insgesamt 40 Kanälen bei 200 Gbit/s). s, insgesamt 16 Tb/s Durchsatzrate).

QM9700
QM8700

3) Anzahl der Einheiten (Skalierbare Einheit SU)

Die Anzahl der Einheiten beeinflusst die Ebene der Switching-Architektur. Wenn die Anzahl der Einheiten gering ist, wird nur eine zweischichtige Architektur verwendet, und wenn die Anzahl der Einheiten groß ist, wird eine dreischichtige Architektur verwendet.

H100 SuperPOD: Jede Einheit besteht aus 32 Knoten (DGX H100-Server) und unterstützt maximal 4 Einheiten, um einen Cluster mit einer zweischichtigen Switching-Architektur zu bilden.

A100 SuperPOD: Jede Einheit umfasst 20 Knoten (DGX A100-Server), unterstützt maximal 7 Einheiten zur Bildung eines Clusters und mehr als 5 Einheiten erfordern eine dreistufige Switching-Architektur.

Skalierbare Einheit SU

Fazit:

(1) Dreischichtiges A100+ConnectX6+QM8700-Netzwerk: Verhältnis 1:6, alle mit optischen 200G-QSFP56-Modulen

(2) A100+ConnectX6+QM9700 zweischichtiges Netzwerk: 1:0.75 800G OSFP-Transceiver + 1:1 200G QSFP56 optische Module

(3) Zweischichtiges H100+ConnectX7+QM9700-Netzwerk: 1:1.5 optische 800G-OSFP-Module + optisches 1:1-400G-OSFP-Modul

(4) H100+ConnectX8 (noch nicht veröffentlicht) + QM9700 dreischichtiges Netzwerk: Verhältnis 1:6, alle mit 800G-OSFP Transceiver

Unter der Annahme, dass im Jahr 300,000 100 H900,000 + 100 A2023 ausgeliefert werden, wird eine Gesamtnachfrage von 3.15 Millionen 200G QSP56 + 300,000 400G OSFP + 787,500 800G OSFP generiert, was zu einem inkrementellen KI-Marktplatz von 1.38 Milliarden US-Dollar führt.

Unter der Annahme, dass im Jahr 1.5 100 Millionen H1.5 + 100 Millionen A2024 ausgeliefert werden, sind es insgesamt 750,000 200G QSFP56s + 750,000 400G OSFPs + 6.75 Millionen 800G OSFPs Nachfrage wird generiert, was einen zusätzlichen Marktraum von 4.97 Milliarden US-Dollar für KI mit sich bringt (ungefähr gleich der Summe der Marktgröße für digitale Pass-Through-Optikmodule im Jahr 2021).

Nachfolgend finden Sie den detaillierten Messvorgang für jedes der oben genannten Szenarien.

Szenario 1: Dreischichtiges Netzwerk A100+ConnectX6+QM8700.

Der A100 verfügt über insgesamt acht Computerschnittstellen, in der Abbildung vier links und vier rechts. Derzeit sind A100-Lieferungen hauptsächlich mit ConnectX6 für die externe Kommunikation mit einer Schnittstellenrate von 200 Gbit/s gekoppelt.

A100

In der Architektur der ersten Schicht verfügt jeder Knoten (Node) über 8 Schnittstellen (Port), jeder Knoten ist mit 8 Blattschaltern (Leaf) verbunden und alle 20 Knoten bilden eine Einheit (SU), also in der ersten Schicht insgesamt 8 *SU-Blattschalter werden benötigt, 8*SU*20-Kabel (Kabel) werden benötigt und 2*8*SU*20 200G optische Transceiver werden benötigt.

erste Schicht

In der Layer-2-Architektur ist die Uplink-Rate aufgrund der nicht blockierenden Architektur gleich der Downlink-Rate. In Layer 1 beträgt die gesamte unidirektionale Übertragungsrate 200G*Anzahl der Kabel. Da Layer 2 auch eine Einzelkabel-200G-Übertragungsrate verwendet, sollte die Anzahl der Kabel in Layer 2 mit der in Layer 1 identisch sein und 8*SU*20-Kabel (Kabel) und 2*8*SU*20 200G-Transceiver erfordern. Die Anzahl der erforderlichen Firstschalter (Spine) ist die Anzahl der Kabel geteilt durch die Anzahl der Blattschalter, was (8*SU*20)/(8*SU) Firstschalter erfordert. Wenn jedoch die Anzahl der Firstschalter nicht groß genug ist, können mehr als zwei Verbindungen zwischen dem Leaf und dem First hergestellt werden, um die Anzahl der Firstschalter einzusparen (solange die Grenze von 40 Schnittstellen nicht überschritten wird). Wenn also die Anzahl der Einheiten 1/2/4/5 beträgt, die Anzahl der erforderlichen Firstschalter 4/10/20/20 beträgt und die Anzahl der erforderlichen optischen Module jeweils 320/640/1280/1600 beträgt, wird die Anzahl der Firstschalter nicht im gleichen Verhältnis erhöht, sondern die Anzahl der Transceiver wird im gleichen Verhältnis erhöht.

Wenn die Anzahl der Einheiten 7 erreicht, ist die dritte Schicht der Architektur erforderlich. Aufgrund der nicht blockierenden Architektur entspricht die Anzahl der für die dritte Schicht der Architektur erforderlichen Kabel der Anzahl der zweiten Schicht.

Von NVIDIA empfohlene SuperPOD-Konfiguration: NVIDIA empfiehlt 7 Einheiten für das Netzwerk. Die Layer-3-Architektur muss erhöht und der Kernschalter (Core) erhöht werden.

SuperPOD

140 Server, insgesamt 140*8=1120 A100, insgesamt 56+56+28=140 Switches (QM8790), 1120+1120+1120=3360 Kabel, 3360*2=6720 200G QSFP56 optische Module, die Zuordnung zwischen Die A100- und 200G-QSFP56-Transceiver betragen 1120/6720=1:6.

Szenario 2: A100+ConnectX6+QM9700 Layer 2-Netzwerk

Derzeit ist diese Lösung nicht in der empfohlenen Konfiguration verfügbar, aber in Zukunft werden sich möglicherweise immer mehr A100 für die QM9700-Vernetzung entscheiden, was die Anzahl der verwendeten optischen Transceiver reduziert, aber die Anforderungen an optische 800G-OSFP-Module mit sich bringt. Der größte Unterschied besteht darin, dass die erste Schichtverbindung von 8 externen Verbindungen umgewandelt wird 200G-Kabel zu einer QSFP-zu-OSFP-Schnittstelle mit 2 und 1 zu 4.

QSFP-zu-OSFP-Schnittstelle 1 bis 4

In der ersten Schicht: Für einen 7-Einheiten-Cluster verfügen 140 Server über 140 * 8 = 1120 Schnittstellen, wobei insgesamt 1120/4 = 280 1-tow-4-Kabel extern angeschlossen sind, was 280 800G OSFP und 1120 200G OSFP56 optisch ergibt Modulanforderungen. Insgesamt sind 12 QM9700-Switches erforderlich.

Auf Schicht 2: Bei nur 800G-Verbindungen sind 280*2=560 800G-OSFP-Transceiver erforderlich, was 9 QM9700-Switches erfordert.

Daher erfordern 140 Server und 1120 A100 12+9=21 Switches, 560+280=840 optische 800G-OSFP-Module und 1120 optische 200G-QSFP56-Transceiver.

Die Zuordnung zwischen dem optischen Modul A100 und dem 800G OSFP beträgt 1120:840 = 1:0.75, und die Zuordnung zwischen dem optischen Modul A100 und dem optischen 200G QSFP56 beträgt 1:1

Szenario 3: H100+ConnectX7+QM9700 Layer 2-Netzwerk

Der besondere Punkt des H100-Designs besteht darin, dass die Netzwerkkarte zwar aus acht GPUs mit acht 400G-Netzwerkkarten besteht, die Schnittstelle jedoch in vier 800G-Schnittstellen zusammengeführt wird, was eine große Anzahl von Anforderungen an optische 800G-OSFP-Module mit sich bringt.

H100+ConnectX7+QM9700 Layer 2-Netzwerk

Auf Layer 1 wird gemäß der von NVIDIA empfohlenen Konfiguration empfohlen, ein optisches [2*400G] 800G OSFP-Modul an die Serverschnittstelle anzuschließen: MMA4Z00-NS (800 Gbit/s Twin-Port OSFP 2x400G SR8 PAM4 850 nm 100 m DOM Dual MPO-12 MMF) oder MMS4X00-NM (800 Gbit/s Twin-Port OSFP 2x400G PAM4 1310 nm 500 m DOM Dual MTP/MPO-12 MMF), über Twin-Port . ) werden zwei Glasfaserkabel (MPOs) per Twin-Port verbunden und jeweils an den beiden Switches eingesteckt.

Ebene 1

Für die erste Schicht enthält also eine Einheit 32 Server, ein Server ist mit 2*4=8 Switches verbunden und SuperPOD umfasst 4 Einheiten, was die Verbindung von insgesamt 4*8=32 Leaf-Switches auf der ersten Schicht erfordert.

NVIDIA schlägt vor, dass Sie einen Knoten für Verwaltungszwecke (UFM) reservieren müssen. Aufgrund der begrenzten Auswirkungen auf die Verwendung optischer Transceiver folgen wir gemäß der verkürzten Berechnung lediglich den 4 Einheiten von 128 Servern.

In der ersten Schicht insgesamt 4*128 = 512 optische 800G-OSFP-Module und 2*4*128 = 1024 optische 400G-OSFP-Module: MMA4Z00-NS400 (400G OSFP SR4 PAM4 850 nm 30 m auf OM3/50 m auf OM4 MTP/MPO -12) oder NVIDIA MMS4X00-NS400 (400G OSFP DR4 PAM4 1310 nm MTP/MPO-12 500 m).

Ebene 2

Auf Layer 2 sind die Switches über optische 800G-Module direkt miteinander verbunden, und ein Leaf-Switch ist mit einer unidirektionalen Rate von 32*400G nach unten verbunden. Um sicherzustellen, dass die Upstream- und Downstream-Raten gleich sind, erfordert die Aufwärtsverbindung eine unidirektionale Rate von 16 * 800 G, was 16 Ridge-Switches und insgesamt 4 * 8 * 16 * 2 = 1024 optische 800 G-Transceiver erfordert.

32-Knoten

Daher benötigen die beiden Schichten bei dieser Architektur insgesamt 512+1024=1536 optische 800G-OSFP-Module und 1024x400G-OSFP optische Transceiver, insgesamt 4*32*8=1024 H100. Daher beträgt die Zuordnung zwischen der GPU und dem optischen 800G-OSFP-Modul 1024/1536 → 1:1.5 und die Zuordnung zwischen der GPU und dem optischen 400G-OSFP-Modul beträgt 1024/1024 → 1:1.

Szenario 4: H100+ConnectX8 (noch nicht veröffentlicht) + QM9700 Layer 3-Netzwerk

Dieses Szenario wurde noch nicht veröffentlicht, aber gehen wir davon aus, dass nach dem Upgrade des H100 auch auf eine 800G-NIC die externen Schnittstellen von 4 OSFP-Schnittstellen auf 8 OSFP-Schnittstellen aktualisiert werden sollten. Die Verbindung zwischen den einzelnen Schichten ist mit 800G verbunden, und die gesamte Netzwerkarchitektur ähnelt dem ersten Szenario, nur dass das optische 200G-Modul durch ein optisches 800G-Modul ersetzt wird. Daher beträgt das Verhältnis von GPUs zu optischen Modulen auch in dieser Architektur 1:6.

Wir organisieren die oben genannten vier Szenarien in der folgenden Tabelle.

die oben genannten vier Szenarien

Gehen Sie davon aus, dass im Jahr 300,000 100 H900,000+ 100 A2023 ausgeliefert werden, was einen Gesamtbedarf von 3.15 Millionen 200G+ 300,000 400G+ 787,500 800G OSFP ergibt.

Gehen Sie davon aus, dass im Jahr 1.5 100 Millionen H1.5+ 100 Millionen A2024 ausgeliefert werden, was einen Gesamtbedarf von 750,000 200G+ 750,000 400G+ 6.75 Millionen 800G OSFP ergibt.

A100H100

* Die Hälfte des A100 verwendet 200G-Switches und die andere Hälfte 400G-Switches.

** Die Hälfte des H100 verwendet 400G-Switches und die andere Hälfte 800G-Switches.

Die oben genannten Schätzungen der A100 H100-Mengen sind lediglich Annahmen und stellen keine zukünftigen Erwartungen dar.

Nach der einfachen Berechnung des Durchschnittspreises von 1 US-Dollar pro GB im Jahr 2023 und 0.85 US-Dollar pro GB im Jahr 2024 wird KI voraussichtlich 13.8 bzw. 4.97 Milliarden US-Dollar an KI-Marktplatz für optische Transceiver bringen.

Hinterlasse einen Kommentar

Nach oben scrollen