Architecture réseau du centre de données
Architecture des barres transversales
- Un type d'architecture dérivé du premier réseau de commutation téléphonique (crossbar switch)
- Se compose de plusieurs ports d'entrée, de plusieurs ports de sortie et d'une matrice de commutation
- Très flexible et efficace, peut réaliser des connexions arbitraires entre différents appareils.
Architecture Clos
- Né en 1952, proposé par un nommé Charles Clos.
- L'architecture Clos décrit principalement la structure d'un réseau de commutation de circuits à plusieurs étages
- L'architecture Clos est une amélioration de la structure crossbar, qui peut fournir un réseau non bloquant. L’avantage de Clos est qu’il permet de réduire les coûts et d’augmenter l’efficacité.
Architecture Fat-Tree
Un Fat-Tree est un type d’architecture réseau CLOS.
Comparé à la structure arborescente traditionnelle, un Fat-Tree ressemble davantage à un véritable arbre, avec des branches plus épaisses près de la racine. Des feuilles à la racine, la bande passante du réseau ne converge pas.
L'idée de base : utiliser un grand nombre de commutateurs peu performants pour construire un réseau non bloquant à grande échelle. Quel que soit le modèle de communication, il existe toujours un chemin qui leur permet d'atteindre la bande passante de la carte réseau.
Après l'introduction de l'architecture Fat-Tree dans le centre de données, celui-ci est devenu une structure traditionnelle à trois couches :
Couche d'accès: utilisé pour connecter tous les nœuds de calcul. Généralement sous la forme d'un commutateur de rack (TOR, Top of Rack).
Couche d'agrégation: utilisé pour l'interconnexion de la couche d'accès et comme limite des deuxième et troisième couches de la zone d'agrégation. Divers services tels que des pare-feu, l'équilibrage de charge, etc. sont également déployés ici.
Couche de base: utilisé pour l'interconnexion de la couche d'agrégation et pour mettre en œuvre la communication de troisième couche entre l'ensemble du centre de données et le réseau externe.
Les inconvénients de l’architecture Fat-Tree :
Gaspillage des ressources: Dans la structure traditionnelle à trois couches, un commutateur de couche inférieure sera connecté à deux commutateurs de couche supérieure via deux liaisons. Le protocole STP (Spanning Tree Protocol) étant utilisé, un seul lien achemine réellement le trafic. L'autre liaison montante est bloquée (utilisée uniquement pour la sauvegarde). Cela entraîne un gaspillage de bande passante.
Grand domaine de pannes: Le protocole STP, en raison de son propre algorithme, doit reconverger lorsque la topologie du réseau change, ce qui peut facilement provoquer des pannes et affecter le réseau de l'ensemble du VLAN.
Ne convient pas à la circulation est-ouest: La communication entre serveurs et serveurs nécessite de passer par le commutateur d'accès, le commutateur d'agrégation et le commutateur principal.
Réseau Spine-Leaf
Comme la structure Fat-Tree, elle appartient au modèle de réseau CLOS.
Par rapport à l'architecture réseau traditionnelle à trois couches, le réseau Spine-Leaf a été aplati et transformé en une architecture à deux couches.
Leaf switch, équivalent au switch d'accès dans l'architecture traditionnelle à trois couches, comme TOR (Top Of Rack) directement connecté au serveur physique. Au-dessus du commutateur feuille se trouve le réseau de troisième couche, chacun étant un domaine de diffusion L2 indépendant. Si les serveurs situés sous les commutateurs à deux feuilles doivent communiquer, ils doivent être transférés par le commutateur spine.
Commutateur de colonne vertébrale, équivalent au commutateur principal. Les commutateurs feuille et colonne vertébrale sélectionnent dynamiquement plusieurs chemins via ECMP (Equal Cost Multi Path).
Le nombre de ports de liaison descendante du commutateur spine détermine le nombre de commutateurs feuilles. Le nombre de ports de liaison montante du commutateur feuille détermine le nombre de commutateurs spine. Ils déterminent conjointement l’ampleur du réseau Spine-Leaf.
Les avantages du réseau Spine-Leaf
Utilisation élevée de la bande passante
La liaison montante de chaque commutateur feuille fonctionne de manière à équilibrer la charge, en utilisant pleinement la bande passante.
Latence réseau prévisible
Dans le modèle ci-dessus, le nombre de chemins de communication entre les commutateurs feuilles peut être déterminé, et un seul commutateur spine est requis pour chaque chemin. La latence est-ouest du réseau est prévisible.
Bonne évolutivité
Lorsque la bande passante est insuffisante, le nombre de commutateurs spine peut être augmenté pour adapter la bande passante horizontalement. Lorsque le nombre de serveurs augmente, le nombre de commutateurs spine peut également être augmenté pour étendre l’échelle du centre de données. La planification et l'agrandissement sont très pratiques.
Exigences réduites pour les commutateurs
Le trafic nord-sud peut provenir des nœuds feuilles ou des nœuds spine. Le trafic est-ouest est réparti sur plusieurs trajets. Des commutateurs coûteux et hautes performances à large bande passante ne sont pas nécessaires.
Haute sécurité et disponibilité
Les réseaux traditionnels utilisent le protocole STP, qui reconverge en cas de panne d'un appareil, affectant les performances du réseau ou même provoquant des pannes. Dans l'architecture Spine-Leaf, lorsqu'un périphérique tombe en panne, il n'est pas nécessaire de reconverger et le trafic continue de passer par d'autres chemins normaux. La connectivité réseau n'est pas affectée et la bande passante n'est réduite que par la bande passante d'un chemin. L’impact sur les performances est négligeable.
InfiniBand
Protocole RDMA (Remote Direct Memory Access)
Dans le TCP/IP traditionnel, les données de la carte réseau sont d'abord copiées dans la mémoire du noyau, puis copiées dans l'espace de stockage de l'application, ou les données sont copiées de l'espace de l'application vers la mémoire du noyau, puis envoyées à Internet via la carte réseau. Ce mode de fonctionnement E/S nécessite la conversion de la mémoire du noyau. Cela augmente la longueur du chemin de transmission du flux de données, augmente la charge du processeur et augmente également la latence de transmission.
Le mécanisme de contournement du noyau de RDMA permet la lecture et l'écriture directe des données entre l'application et la carte réseau, réduisant ainsi la latence de transmission des données au sein du serveur à près de 1us.
Dans le même temps, le mécanisme de copie zéro de la mémoire du RDMA permet au récepteur de lire directement les données de la mémoire de l'expéditeur, en contournant la participation de la mémoire du noyau, ce qui réduit considérablement la charge du processeur et améliore l'efficacité du processeur.
L’arrière-plan d’InfiniBand
InfiniBand (en abrégé IB) est un puissant protocole de technologie de communication. Sa traduction anglaise est « bande passante infinie ». Il est né dans les années 1990, pour remplacer le bus PCI (Peripheral Component Interconnect). Le bus PCI a été introduit par Intel dans l'architecture PC et la vitesse de mise à niveau était lente, ce qui limitait considérablement les performances d'E/S et devenait le goulot d'étranglement de l'ensemble du système.
L’histoire du développement d’InfiniBand
Dans les années 1990, Intel, Microsoft et SUN ont dirigé le développement de la norme technologique « Next Generation I/O (NGIO) », tandis qu'IBM, Compaq et HP ont dirigé le développement de « Future I/O (FIO) ».
En 1999, le FIO Developers Forum et le NGIO Forum ont fusionné et ont créé le InfiniBand Association professionnelle (IBTA).
En 2000, la spécification d'architecture InfiniBand version 1.0 a été officiellement libéré.
En mai 1999, plusieurs employés qui ont quitté Intel et Galileo Technology ont fondé une entreprise de puces électroniques en Israël et l'ont baptisée Mellanox.
Après la création de Mellanox, elle a rejoint NGIO. Plus tard, Mellanox a rejoint le camp InfiniBand. En 2001, ils ont lancé leur premier produit InfiniBand. À partir de
En 2003, InfiniBand s'est tourné vers un nouveau domaine d'application, celui de l'interconnexion de clusters informatiques.
En 2004, une autre organisation à but non lucratif importante d'InfiniBand est née : l'OFA (Open Fabrics Alliance).
En 2005, InfiniBand a découvert un autre nouveau scénario : la connexion de périphériques de stockage.
Depuis lors, InfiniBand est entré dans une phase de développement rapide.
Architecture réseau InfiniBand
InfiniBand est une structure basée sur des canaux, composée de quatre composants principaux :
- HCA (Host Channel Adapter), qui connecte l'hôte au réseau InfiniBand.
- TCA (Target Channel Adapter), qui connecte le périphérique cible (tel que le stockage) au réseau InfiniBand.
- La liaison InfiniBand, qui peut être une liaison par câble, fibre ou intégrée, connecte les adaptateurs de canal aux commutateurs ou aux routeurs.
- Commutateur et routeur InfiniBand, qui fournissent la connectivité réseau et le routage pour le réseau InfiniBand.
- Les adaptateurs de canal sont utilisés pour établir des canaux InfiniBand. Toutes les transmissions commencent ou se terminent par des adaptateurs de canal, pour garantir la sécurité ou fonctionner à un niveau de QoS (Qualité de Service) donné.
Mellanox, acquis par Nvidia en 2020. Depuis, il est largement utilisé dans la formation de grands modèles d’IA.
ROCE
La naissance de RoCE
En avril 2010, IBTA a publié RoCE (RDMA over Converged Ethernet), qui « a porté » la technologie RDMA d'InfiniBand vers Ethernet. En 2014, ils ont proposé un RoCEv2 plus mature. Avec RoCEv2, Ethernet a considérablement réduit l'écart de performances techniques avec InfiniBand et, combiné à ses avantages inhérents en termes de coût et de compatibilité, il a commencé à riposter.
ROCE V2
RoCE v1 : Un protocole RDMA basé sur la couche de liaison Ethernet (le commutateur doit prendre en charge les technologies de contrôle de flux telles que PFC, pour garantir une transmission fiable au niveau de la couche physique), qui permet la communication entre deux hôtes dans le même VLAN. RoCE V2 : surmonte la limitation de RoCE v1 étant lié à un seul VLAN. En modifiant l'encapsulation des paquets, y compris les en-têtes IP et UDP, RoCE 2 peut désormais être utilisé sur les réseaux L2 et L3.
Produits associés:
- Module émetteur-récepteur Mellanox MMA1B00-E100 Compatible 100G InfiniBand EDR QSFP28 SR4 850nm 100m MTP/MPO MMF DDM $50.00
- Mellanox MMA1T00-HS Compatible 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 Module émetteur-récepteur optique $300.00
- Mellanox MMS1W50-HM Compatible 200G InfiniBand HDR QSFP56 FR4 PAM4 CWDM4 2km LC SMF FEC Module Émetteur-Récepteur Optique $650.00
- NVIDIA MMS4X00-NS400 Compatible 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Module Émetteur-Récepteur Optique $1450.00
- NVIDIA MFP7E20-N050 Compatible 50 m (164 pieds) 8 fibres faible perte d'insertion femelle à femelle MPO12 vers 2xMPO12 polarité B APC vers APC LSZH multimode OM4 50/125 $145.00
- NVIDIA MFP7E20-N015 Compatible 15 m (49 pieds) 8 fibres faible perte d'insertion femelle à femelle MPO12 vers 2xMPO12 polarité B APC vers APC LSZH multimode OM3 50/125 $67.00
- NVIDIA MFS1S90-H015E Compatible 15m (49ft) 2x200G QSFP56 à 2x200G QSFP56 PAM4 Câble Optique Actif Breakout $830.00
- NVIDIA MMA4Z00-NS-FLT Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF $1400.00
- NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 Module émetteur-récepteur optique SMF $2000.00
- NVIDIA MFS1S50-H015V Compatible 15m (49ft) 200G InfiniBand HDR QSFP56 à 2x100G QSFP56 PAM4 Breakout Câble Optique Actif $630.00
- NVIDIA MMA4Z00-NS Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF $1400.00
- NVIDIA MMS4X00-NM Compatible 800Gb/s double port OSFP 2x400G PAM4 1310nm 500m DOM double MTP/MPO-12 Module émetteur-récepteur optique SMF $2000.00
- Carte adaptateur NVIDIA Mellanox MCX653105A-HDAT-SP ConnectX-6 InfiniBand/VPI, HDR/200GbE, QSFP56 à port unique, PCIe3.0/4.0 x16, support haut $1400.00
- Mellanox MCP7H50-H003R26 Compatible 3m (10ft) Infiniband HDR 200G QSFP56 vers 2x100G QSFP56 PAM4 Passive Breakout Direct Attach Copper Cable $100.00
- Mellanox MFS1S50-H003E Compatible 3m (10ft) 200G HDR QSFP56 à 2x100G QSFP56 PAM4 Breakout Câble Optique Actif $605.00
- Carte adaptateur NVIDIA Mellanox MCX75510AAS-NEAT ConnectX-7 InfiniBand/VPI, NDR/400G, OSFP à port unique, PCIe 5.0x 16, support haut $1650.00