Combien d'émetteurs-récepteurs optiques sont nécessaires pour un GPU ?

Sur le marché, il existe différentes versions du rapport entre les émetteurs-récepteurs optiques et le nombre de GPU, et les chiffres des différentes versions ne sont pas cohérents, principalement parce que la quantité de modules optiques requise sous différentes architectures de réseau n'est pas la même. Le nombre réel de modules optiques utilisés dépend principalement des aspects suivants.

1) Modèles de carte réseau

Comprend principalement deux types de cartes réseau, ConnectX-6 (200Gb/s, principalement utilisé avec l'A100) les modules optiques principalement utilisés sont MMA1T00-HS (200G Infiniband HDR QSFP56 SR4 PAM4 850nm 100m) et ConnectX-7 (400Gb/s, principalement utilisé avec H100).

ConnectX-6
ConnectX-7

2) Changer de modèle

Le modèle de commutateur ConnectX-8 800 Gb/s de nouvelle génération comprend principalement deux types de commutateurs, la série QM9700 (32 ports OSFP (2*400 Gb/s), avec un total de 64 canaux à un taux de transfert de 400 Gb/s, totalisant 51.2 débit Tb/s) et la série QM8700 (QSFP40 à 56 ports, avec un total de 40 canaux à 200 Gb/s, totalisant un débit de 16 Tb/s).

QM9700
QM8700

3) Nombre d'unités (unité évolutive SU)

Le nombre d'unités affecte le niveau de l'architecture de commutation, seule l'architecture à deux couches est utilisée lorsque le nombre d'unités est petit et l'architecture à trois couches est utilisée lorsque le nombre d'unités est important.

SuperPOD H100 : chaque unité se compose de 32 nœuds (serveurs DGX H100) et prend en charge un maximum de 4 unités pour former un cluster avec une architecture de commutation à deux couches.

A100 SuperPOD : chaque unité comprend 20 nœuds (serveur DGX A100), prend en charge un maximum de 7 unités pour former un cluster, et plus de 5 unités nécessitent une architecture de commutation à trois niveaux.

Unité évolutive SU

Conclusion:

(1) Réseau à trois couches A100+ConnectX6+QM8700 : rapport 1:6, tous avec modules optiques 200G QSFP56

(2) Réseau à deux couches A100 + ConnectX6 + QM9700 : émetteurs-récepteurs OSFP 1:0.75 800G + modules optiques 1:1 200G QSFP56

(3) Réseau à deux couches H100 + ConnectX7 + QM9700 : modules optiques OSFP 1:1.5 800G + module optique OSFP 1:1 400G

(4) H100+ConnectX8 (pas encore sorti) + réseau à trois couches QM9700 : rapport 1:6, le tout avec OSFP 800G d'émetteurs-récepteurs

En supposant que 300,000 100 H900,000 + 100 2023 A3.15 soient expédiés en 200, un total de 56 millions de QSP300,000 400G + 787,500 800 OSFP 1.38G + XNUMX XNUMX OSFP XNUMXG seront générés, ce qui se traduira par un espace de marché IA supplémentaire de XNUMX milliard de dollars.

En supposant que 1.5 million d'H100 + 1.5 million d'A100 soient expédiés en 2024, un total de 750,000 XNUMX 200G QSFP56Une demande de + 750,000 400 OSFP 6.75G + 800 millions d’OSFP 4.97G est générée, ce qui génère un espace de marché supplémentaire de 2021 milliards de dollars pour l’IA (environ la somme de la taille du marché des modules optiques de passage numérique de XNUMX).

Vous trouverez ci-dessous le processus de mesure détaillé pour chacun des scénarios ci-dessus.

Scénario 1 : réseau à trois couches A100+ConnectX6+QM8700.

A100 a un total de huit interfaces informatiques, quatre à gauche et quatre à droite sur la figure. Actuellement, les envois A100 sont principalement couplés avec ConnectX6 pour la communication externe, avec un débit d'interface de 200 Gb/s.

A100

Dans l'architecture de la première couche, chaque nœud (Node) a 8 interfaces (Port), chaque nœud est connecté à 8 commutateurs feuilles (Leaf), et tous les 20 nœuds forment une unité (SU), donc dans la première couche un total de 8 * Des commutateurs de feuilles SU sont nécessaires, 8 * câbles SU * 20 (câble) sont nécessaires et 2 * 8 * émetteurs-récepteurs optiques SU * 20 200G sont nécessaires.

première couche

Dans l'architecture de couche 2, le débit de la liaison montante est égal au débit de la liaison descendante en raison de l'architecture non bloquante. Dans la couche 1, le taux de transmission unidirectionnel total est de 200G*nombre de câbles. Étant donné que la couche 2 adopte également un taux de transmission de 200G à câble unique, le nombre de câbles dans la couche 2 doit être le même que celui de la couche 1, nécessitant des câbles 8 * SU * 20 (câble) et des émetteurs-récepteurs 2 * 8 * SU * 20 200G. Le nombre de commutateurs de crête (Spine) requis est le nombre de câbles divisé par le nombre de commutateurs de lames, nécessitant (8*SU*20)/(8*SU) commutateurs de crête. Mais lorsque le nombre de commutateurs de feuille n'est pas assez important, plus de deux connexions peuvent être établies entre la feuille et la crête afin d'économiser sur le nombre de commutateurs de crête (tant que la limite de 40 interfaces n'est pas dépassée). Par conséquent, lorsque le nombre d'unités est respectivement de 1/2/4/5, le nombre de commutateurs de crête requis est de 4/10/20/20 et le nombre de modules optiques requis est de 320/640/1280/1600 respectivement, le le nombre de commutateurs de crête ne sera pas augmenté dans la même proportion, mais le nombre d'émetteurs-récepteurs sera augmenté dans la même proportion.

Lorsque le nombre d'unités atteint 7, la troisième couche de l'architecture est requise, en raison de l'architecture non bloquante, de sorte que le nombre de câbles requis pour la troisième couche de l'architecture est le même que le nombre de la deuxième couche.

Configuration recommandée par NVIDIA SuperPOD : NVIDIA a recommandé 7 unités pour la mise en réseau, besoin d'augmenter l'architecture de couche 3 et d'augmenter le commutateur principal (Core), une variété de nombres différents d'unités de chaque couche du nombre de commutateurs, le nombre de câbles connectés à le chiffre indiqué.

SuperPOD

140 serveurs, un total de 140*8=1120 A100, un total de 56+56+28=140 commutateurs (QM8790), 1120+1120+1120=3360 câbles, 3360*2=6720 modules optiques 200G QSFP56, le mappage entre les émetteurs-récepteurs A100 et 200G QSFP56 est 1120/6720=1:6.

Scénario 2 : A100+ConnectX6+QM9700 Réseau de couche 2

À l'heure actuelle, cette solution n'est pas disponible dans la configuration recommandée, mais à l'avenir, de plus en plus d'A100 pourront choisir le réseau QM9700, ce qui réduira le nombre d'émetteurs-récepteurs optiques utilisés, mais apportera des exigences de module optique 800G OSFP. La plus grande différence est que la connexion de la première couche est convertie à partir de 8 connexions externes. câbles 200G à une interface QSFP à OSFP avec 2 et 1 à 4.

Interface QSFP vers OSFP 1 à 4

Dans la première couche : pour un cluster de 7 unités, 140 serveurs ont 140 * 8 = 1120 interfaces, avec un total de 1120/4 = 280 câbles 1-tow-4 connectés en externe, résultant en 280 800G OSFP et 1120 200G OSFP56 optique exigences des modules. Un total de 12 commutateurs QM9700 sont nécessaires.

Au niveau 2 : avec seulement des connexions 800G, 280*2=560 émetteurs-récepteurs OSFP 800G sont nécessaires, nécessitant 9 commutateurs QM9700.

Par conséquent, 140 serveurs et 1120 A100 nécessitent 12+9=21 commutateurs, 560+280=840 modules optiques OSFP 800G et 1120 émetteurs-récepteurs optiques QSFP200 56G.

Le mappage entre le module optique A100 et 800G OSFP est de 1120: 840 = 1: 0.75, et le mappage entre le module optique A100 et 200G QSFP56 est de 1: 1

Scénario 3 : Réseau de couche 100 H7+ConnectX9700+QM2

La particularité de la conception H100 est que bien que la carte réseau soit huit Gpus avec huit cartes réseau 400G, l'interface est fusionnée en quatre interfaces 800G, ce qui apportera un grand nombre d'exigences de module optique OSFP 800G.

H100+ConnectX7+QM9700 Réseau de couche 2

Au niveau de la couche 1, selon la configuration recommandée par NVIDIA, il est recommandé de connecter un module optique [2*400G] 800G OSFP à l'interface du serveur : MMA4Z00-NS (800Gb/s OSFP double port 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF) ou MMS4X00-NM (800Gb/s OSFP double port 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 MMF), via double port . ), deux câbles à fibre optique (MPO) sont connectés via un port double et branchés sur chacun des deux commutateurs.

couche 1

Ainsi, pour la première couche, une unité contient 32 serveurs, un serveur est connecté à 2 * 4 = 8 commutateurs et SuperPOD comprend 4 unités, ce qui nécessite un total de 4 * 8 = 32 commutateurs feuilles à connecter à la première couche.

NVIDIA suggère que vous deviez réserver un nœud à des fins de gestion (UFM), en raison de l'impact limité sur l'utilisation des émetteurs-récepteurs optiques, nous suivons simplement les 4 unités de 128 serveurs conformément au calcul abrégé.

Dans la première couche, un total de 4*128 = 512 modules optiques 800G OSFP, et 2*4*128 = 1024 modules optiques 400G OSFP : MMA4Z00-NS400 (400G OSFP SR4 PAM4 850nm 30m sur OM3/50m sur OM4 MTP/MPO -12) ou NVIDIA MMS4X00-NS400 (400G OSFP DR4 PAM4 1310nm MTP/MPO-12 500m).

couche 2

Au niveau de la couche 2, les commutateurs sont directement connectés les uns aux autres avec des modules optiques 800G, et un commutateur feuille est connecté vers le bas à un débit unidirectionnel de 32*400G. Afin de garantir que les débits en amont et en aval sont les mêmes, la connexion ascendante nécessite un débit unidirectionnel de 16*800G, nécessitant 16 commutateurs de crête, un total de 4*8*16*2=1024 émetteurs-récepteurs optiques 800G.

Noeud 32

Par conséquent, sous cette architecture, les deux couches ont besoin d'un total de 512+1024=1536 modules optiques OSFP 800G et 1024xOSFP 400G émetteurs-récepteurs optiques, un total de 4*32*8=1024 H100. Par conséquent, le mappage entre le GPU et le module optique OSFP 800G est de 1024/1536 → 1:1.5, et le mappage entre le GPU et le module optique OSFP 400G est de 1024/1024 → 1:1.

Scénario 4 : H100+ConnectX8 (pas encore sorti) + réseau QM9700 Layer 3

Ce scénario n'a pas encore été publié, mais supposons qu'après la mise à niveau du H100 vers une carte réseau 800G, les interfaces externes doivent être mises à niveau de 4 interfaces OSFP à 8 interfaces OSFP. La connexion entre chaque couche est connectée avec 800G, et toute l'architecture du réseau est similaire au premier scénario, seul le module optique 200G est remplacé par un module optique 800G. Par conséquent, le rapport entre les GPU et les modules optiques dans cette architecture est également de 1:6.

Nous organisons les quatre scénarios ci-dessus dans le tableau suivant.

les quatre scénarios ci-dessus

Supposons que 300,000 100 H900,000+ 100 2023 A3.15 seront expédiés en 200, apportant un total de 300,000 millions de demandes 400G+ 787,500 800 XNUMXG+ XNUMX XNUMX XNUMXG OSFP.

Supposons que 1.5 million de H100+ 1.5 million d'A100 seront expédiés en 2024, apportant un total de 750,000 200 750,000G+ 400 6.75 800G+ XNUMX millions de demandes OSFP XNUMXG.

A100H100

* La moitié de l'A100 utilise des commutateurs 200G et l'autre moitié utilise des commutateurs 400G.

** La moitié du H100 utilise des commutateurs 400G et l'autre moitié utilise des commutateurs 800G.

Les estimations ci-dessus des quantités A100 H100 ne sont que des hypothèses et ne représentent pas les attentes futures.

Selon le simple calcul du prix moyen de 1 $/Go en 2023 et de 0.85 $/Go en 2024, l'IA devrait apporter 13.8/4.97 milliards de dollars US d'espace de marché incrémentiel de l'IA pour les émetteurs-récepteurs optiques.

Laisser un commentaire

Remonter en haut