Architecture produit du centre de données IA 800G/400G

L’IA stimule l’essor du marché des modules optiques 400G/800G

Le 30 novembre 2022, OpenAI, une société américaine de recherche en intelligence artificielle (IA), a lancé ChatGPT, un modèle de chatbot, qui a attiré plus d'un million d'utilisateurs en cinq jours et plus de 100 millions d'utilisateurs en deux mois, devenant ainsi le modèle à la croissance la plus rapide. application du consommateur dans l’histoire. Le 28 avril 2023, OpenAI a finalisé un financement de 10.3 milliards de dollars, avec une valorisation post-investissement de 27 à 29 milliards de dollars, devenant ainsi la licorne à la croissance la plus rapide au monde.

Avec le développement de la technologie de l’IA, les grands modèles, les mégadonnées et la grande puissance de calcul deviennent de plus en plus les principales contraintes des applications AIGC. Les grands modèles et ensembles de données constituent la base logicielle du développement de l'AIGC, tandis que la puissance de calcul constitue l'infrastructure la plus importante. L'IA est principalement basée sur le calcul parallèle et le processeur central est principalement un GPU. Mais outre les performances du GPU, le facteur communication deviendra également un goulot d'étranglement pour le calcul intensif. Tant qu'il y aura une congestion du réseau sur une liaison, une latence des données se produira. Par conséquent, le serveur IA pour les exigences sous-jacentes en matière de taux de transmission de données et de latence est très exigeant, avec la nécessité de modules optiques à haute vitesse correspondant, de sorte que le serveur IA a une forte demande pour des modules optiques 800G.

Afin de résoudre le goulot d'étranglement de la bande passante du réseau IA, l'architecture du réseau du centre de données doit être modifiée.

architecture réseau du centre de données

À mesure que la formation sur de grands modèles d'IA est progressivement appliquée dans divers domaines, les réseaux traditionnels adaptés au HPC ne peuvent plus répondre aux exigences de bande passante et de latence de la formation sur de grands modèles de clusters. La formation distribuée sur de grands modèles nécessite une communication entre les GPU, ce qui augmente le trafic est-ouest dans les centres de données IA/ML, et le modèle de trafic est différent du cloud computing traditionnel. Les données d'IA sont à court terme et en grand volume, ce qui entraîne une latence du réseau et une vitesse de formation réduite dans le cadre de l'architecture réseau de cloud computing traditionnelle. Dans la topologie de réseau arborescente traditionnelle, la bande passante converge couche par couche et la bande passante réseau à la racine de l'arborescence est bien inférieure à la somme de toutes les bandes passantes à chaque feuille. Le gros arbre ressemble plus à un véritable arbre, plus il est proche de la racine, plus les branches sont épaisses, c'est-à-dire que de la feuille à la racine, la bande passante du réseau ne converge pas, ce qui peut améliorer l'efficacité du réseau et accélérer la formation. C’est la base de l’architecture Fat Tree pour prendre en charge les réseaux non bloquants. Puisqu’il n’y a pas de convergence, davantage de ports optiques sont nécessaires pour assurer la cohérence des débits de liaison montante et descendante, ce qui augmente le nombre de modules optiques.

Lorsque la puce de commutation est mise à niveau vers une interface électrique 112G, elle ouvrira les applications de module 400G/800G correspondantes. En raison des grandes différences dans l'architecture topologique des différents centres de données IA, on estime que la demande de modules optiques pilotés par IA est basée sur une situation typique. Lorsque l’application de type GPT atteint 1 milliard d’utilisateurs actifs mensuels, on estime que 69.4 A100 sont nécessaires. En supposant qu'un A100 correspond à trois demandes de modules optiques, cela correspond à environ 2 millions de demandes de modules optiques 800G. Dans les applications réelles, de l'extrémité du commutateur à l'extrémité du serveur, 800G sont souvent divisés en deux et la couche inférieure est de 400G. Mise à niveau vers 800G entraînera inévitablement la demande de 400G.

Du point de vue du marché nord-américain des modules optiques, les prochaines années seront essentiellement divisées en deux parties, l'une étant la demande traditionnelle des centres de données et l'autre la nouvelle demande due à l'essor de l'IA. On s’attend à ce que la nouvelle demande en matière d’IA dépasse la demande traditionnelle des centres de données entre 2024 et 2025.

Du point de vue du marché national des modules optiques, 200GLe déploiement /400G restera le pilier et durera un certain temps. À l'heure actuelle, la demande intérieure de 400G et 800G n'a pas augmenté rapidement. D'une part, la demande de centres de données traditionnels est relativement stable, de sorte que le taux de croissance n'est pas particulièrement évident ; d'autre part, la demande dans le domaine des télécommunications continue de se développer lentement et il n'y a pas de hauts et de bas. Par conséquent, la croissance des 400G et 800G en 2024 proviendra d'une augmentation de la demande tirée par le supercalcul, et les CPO et les modules enfichables coexisteront pendant longtemps dans le futur.

expédition portuaire

Source : Dell'oro 2022.10

expédition

Source : comptage de lumière 2022.5

Évolution de la mise à niveau du tarif Internet du centre de données

Les voies évolutives sont divisées et diverses options coexistent. Les utilisateurs peuvent choisir en fonction des exigences commerciales, de l'architecture du réseau et du temps de déploiement.

évolution
Tarif Internet du centre de données

Applications typiques pour les produits 400G/800G

DAC/ACC 400G/800G

Cas 1 : connexion du commutateur Quantum-2 Infiniband ou du commutateur Quantum-2 IB connecté au DGX-H100

Connexion du commutateur Quantum-2 IB ou du commutateur Quantum-2 IB à connecter au DGX-H100

Cas 2 : Passage de Quantum-2 Infiniband vers une application de branche

Cas 2 : Basculement de Quantum-2 IB vers une application de branche

Émetteur-récepteur optique 400G SR4/800G SR8

Cas 3 : Commutation Quantum-2 Infiniband vers 2 cartes réseau ConnectX-7 400G

Cas 3 : Commutation Quantum-2 IB vers 2 cartes réseau ConnectX-7 400G

Le module émetteur-récepteur optique 800G OSFP SR8 est conçu pour les liaisons 400G InfiniBand NDR sur fibre multimode utilisant une longueur d'onde de 850 nm. Le module dispose de deux ports de modulation optique 4G-PAM100 à 4 canaux, chacun utilisant un connecteur MTP/MPO-12. Dans la vidéo ci-dessous, vous verrez comment le connecter à un autre appareil à l'aide de câbles à fibre optique et comment configurer le protocole du commutateur basé sur InfiniBand ou Ethernet. Vous découvrirez également les principales caractéristiques et avantages du module 800G OSFP SR8, tels que sa bande passante élevée, sa faible consommation d'énergie et sa possibilité de branchement à chaud.

Sortie d'un nouveau produit FiberMall 400G/800G

Lancement de FiberMall 800G QSFP-DD SR8, émetteurs-récepteurs optiques 800G OSFP SR8, 400G QSFP112 SR4 et 400G OSFP-RHS SR4 et câbles AOC. La gamme de produits comprend des lasers VCSEL 112 Gbit/s hautes performances et des DSP 7 nm, avec une interface hôte électrique de signaux PAM112 4 Gbit/s par canal et une prise en charge de CMIS 4.0.

Diagramme oculaire et mesures de sensibilité

TDECQ inférieur à 3 dB par canal ; La sensibilité de l'OMA RXsen atteint -5.2 dBm à 2.4E-4 pré-FEC 53.125 God.

Diagramme oculaire et mesures de sensibilité

Distance de transmission

400G OSFP SR4 prend en charge 30 mètres (OM3 MMF) et 50 mètres (OM4 MMF).

800G OSFP SR8 prend en charge 60 mètres (OM3 MMF) et 100 mètres (OM4 MMF).

Nombres de personnes

Les modules optiques 400G/800G prennent en charge à la fois QSFP-DD et OSFP.

Conception de la consommation d'énergie

La consommation électrique du module optique/AOC 800G est inférieure à 14 W sous test à trois températures, et la consommation électrique du module optique/AOC 400G est inférieure à 8 W.

La gamme complète de produits de cette série est la suivante :

Gamme de produits multimode 800G (8×112G)

  • 800G OSFP SR8 (Double MPO12/APC ou MPO16/APC)
  • 800G QSFP-DD AOC
  • QSFP-DD SR800 8G (MPO16/APC)

Gammes de produits multimodes 400G (4 × 112G)

Le premier câble en cuivre actif 800G de FiberMall, 800G OSFP ACC, alimentant les centres de données à haut débit et les applications de calcul élevé d'IA.

FiberMall's DAC/ACC OSFP 800G est conforme aux spécifications OSFP MSA et IEEE802.3ck et utilise 16 paires de câbles en cuivre pour prendre en charge la transmission bidirectionnelle à 8 canaux à 112 Go/s et obtenir une rétrocompatibilité de débit. Par rapport à la prise en charge maximale du DAC OSFP 800G de 2 m, la distance de transmission ACC prend en charge 4 m à 5 m et peut répondre aux besoins généraux de câblage d'interconnexion à courte distance. Les caractéristiques du produit sont les suivantes :

ACC 800G OSFP

Excellentes performances SI et bonne cohérence à 44 GHZ.

Excellentes performances SI et bonne cohérence à 44 GHZ.
  • Sur le testeur de réseau 800G et activez KP4-FEC, le test répond aux exigences IEEE de négociation automatique et de formation de liaison, le BER post-FEC <1E-15 et la marge FEC sont meilleurs que 27%, et le taux de perte de trame FEC est de 0 pour Le processus complet.
  • Le produit adopte une solution Re-Driver, avec une consommation électrique typique d'environ 2.5 W, un délai inférieur à 20 ns. L'égalisation et l'équilibre du rapport signal/bruit sont cruciaux et sont bien meilleurs que la solution Re-Timer en termes de consommation électrique et de délai.
  • Adoptant un processus de production innovant, la fiabilité est favorable, 800G OSFP ACC 26AWG 4m ne pèse qu'environ 600g.

FiberMall a lancé une variété de modules émetteur-récepteur DAC/ACC/AOC/optique 400G/800G, n'hésitez pas à vous renseigner !

Laisser un commentaire

Remonter en haut