Quelle est la différence entre InfiniBand et RoCE ?

Architecture réseau du centre de données

Architecture des barres transversales

  • Un type d'architecture dérivé du premier réseau de commutation téléphonique (crossbar switch)
  • Se compose de plusieurs ports d'entrée, de plusieurs ports de sortie et d'une matrice de commutation
  • Très flexible et efficace, peut réaliser des connexions arbitraires entre différents appareils.
Architecture des barres transversales

Architecture Clos

  • Né en 1952, proposé par un nommé Charles Clos.
  • L'architecture Clos décrit principalement la structure d'un réseau de commutation de circuits à plusieurs étages
  • L'architecture Clos est une amélioration de la structure crossbar, qui peut fournir un réseau non bloquant. L’avantage de Clos est qu’il permet de réduire les coûts et d’augmenter l’efficacité.
Architecture Clos

Architecture Fat-Tree

Un Fat-Tree est un type d’architecture réseau CLOS.

Comparé à la structure arborescente traditionnelle, un Fat-Tree ressemble davantage à un véritable arbre, avec des branches plus épaisses près de la racine. Des feuilles à la racine, la bande passante du réseau ne converge pas.

L'idée de base : utiliser un grand nombre de commutateurs peu performants pour construire un réseau non bloquant à grande échelle. Quel que soit le modèle de communication, il existe toujours un chemin qui leur permet d'atteindre la bande passante de la carte réseau.

Architecture Fat-Tree

Après l'introduction de l'architecture Fat-Tree dans le centre de données, celui-ci est devenu une structure traditionnelle à trois couches :

Couche d'accès: utilisé pour connecter tous les nœuds de calcul. Généralement sous la forme d'un commutateur de rack (TOR, Top of Rack).

Couche d'agrégation: utilisé pour l'interconnexion de la couche d'accès et comme limite des deuxième et troisième couches de la zone d'agrégation. Divers services tels que des pare-feu, l'équilibrage de charge, etc. sont également déployés ici.

Couche de base: utilisé pour l'interconnexion de la couche d'agrégation et pour mettre en œuvre la communication de troisième couche entre l'ensemble du centre de données et le réseau externe.

structure à trois couches

Les inconvénients de l’architecture Fat-Tree :

Gaspillage des ressources: Dans la structure traditionnelle à trois couches, un commutateur de couche inférieure sera connecté à deux commutateurs de couche supérieure via deux liaisons. Le protocole STP (Spanning Tree Protocol) étant utilisé, un seul lien achemine réellement le trafic. L'autre liaison montante est bloquée (utilisée uniquement pour la sauvegarde). Cela entraîne un gaspillage de bande passante.

Grand domaine de pannes: Le protocole STP, en raison de son propre algorithme, doit reconverger lorsque la topologie du réseau change, ce qui peut facilement provoquer des pannes et affecter le réseau de l'ensemble du VLAN.

Ne convient pas à la circulation est-ouest: La communication entre serveurs et serveurs nécessite de passer par le commutateur d'accès, le commutateur d'agrégation et le commutateur principal.

Ne convient pas à la circulation est-ouest

Réseau Spine-Leaf

Comme la structure Fat-Tree, elle appartient au modèle de réseau CLOS.

Par rapport à l'architecture réseau traditionnelle à trois couches, le réseau Spine-Leaf a été aplati et transformé en une architecture à deux couches.

Réseau Spine-Leaf

Leaf switch, équivalent au switch d'accès dans l'architecture traditionnelle à trois couches, comme TOR (Top Of Rack) directement connecté au serveur physique. Au-dessus du commutateur feuille se trouve le réseau de troisième couche, chacun étant un domaine de diffusion L2 indépendant. Si les serveurs situés sous les commutateurs à deux feuilles doivent communiquer, ils doivent être transférés par le commutateur spine.

Commutateur de colonne vertébrale, équivalent au commutateur principal. Les commutateurs feuille et colonne vertébrale sélectionnent dynamiquement plusieurs chemins via ECMP (Equal Cost Multi Path).

Le nombre de ports de liaison descendante du commutateur spine détermine le nombre de commutateurs feuilles. Le nombre de ports de liaison montante du commutateur feuille détermine le nombre de commutateurs spine. Ils déterminent conjointement l’ampleur du réseau Spine-Leaf.

topologie colonne vertébrale-feuille

Les avantages du réseau Spine-Leaf

Utilisation élevée de la bande passante

La liaison montante de chaque commutateur feuille fonctionne de manière à équilibrer la charge, en utilisant pleinement la bande passante.

Latence réseau prévisible

Dans le modèle ci-dessus, le nombre de chemins de communication entre les commutateurs feuilles peut être déterminé, et un seul commutateur spine est requis pour chaque chemin. La latence est-ouest du réseau est prévisible.

Bonne évolutivité

Lorsque la bande passante est insuffisante, le nombre de commutateurs spine peut être augmenté pour adapter la bande passante horizontalement. Lorsque le nombre de serveurs augmente, le nombre de commutateurs spine peut également être augmenté pour étendre l’échelle du centre de données. La planification et l'agrandissement sont très pratiques.

Exigences réduites pour les commutateurs

Le trafic nord-sud peut provenir des nœuds feuilles ou des nœuds spine. Le trafic est-ouest est réparti sur plusieurs trajets. Des commutateurs coûteux et hautes performances à large bande passante ne sont pas nécessaires.

Haute sécurité et disponibilité

Les réseaux traditionnels utilisent le protocole STP, qui reconverge en cas de panne d'un appareil, affectant les performances du réseau ou même provoquant des pannes. Dans l'architecture Spine-Leaf, lorsqu'un périphérique tombe en panne, il n'est pas nécessaire de reconverger et le trafic continue de passer par d'autres chemins normaux. La connectivité réseau n'est pas affectée et la bande passante n'est réduite que par la bande passante d'un chemin. L’impact sur les performances est négligeable.

InfiniBand

Protocole RDMA (Remote Direct Memory Access)

Dans le TCP/IP traditionnel, les données de la carte réseau sont d'abord copiées dans la mémoire du noyau, puis copiées dans l'espace de stockage de l'application, ou les données sont copiées de l'espace de l'application vers la mémoire du noyau, puis envoyées à Internet via la carte réseau. Ce mode de fonctionnement E/S nécessite la conversion de la mémoire du noyau. Cela augmente la longueur du chemin de transmission du flux de données, augmente la charge du processeur et augmente également la latence de transmission.

Le mécanisme de contournement du noyau de RDMA permet la lecture et l'écriture directe des données entre l'application et la carte réseau, réduisant ainsi la latence de transmission des données au sein du serveur à près de 1us.

Dans le même temps, le mécanisme de copie zéro de la mémoire du RDMA permet au récepteur de lire directement les données de la mémoire de l'expéditeur, en contournant la participation de la mémoire du noyau, ce qui réduit considérablement la charge du processeur et améliore l'efficacité du processeur.

RDMA
infiniband contre rdma

L’arrière-plan d’InfiniBand

InfiniBand (en abrégé IB) est un puissant protocole de technologie de communication. Sa traduction anglaise est « bande passante infinie ». Il est né dans les années 1990, pour remplacer le bus PCI (Peripheral Component Interconnect). Le bus PCI a été introduit par Intel dans l'architecture PC et la vitesse de mise à niveau était lente, ce qui limitait considérablement les performances d'E/S et devenait le goulot d'étranglement de l'ensemble du système.

L’arrière-plan d’InfiniBand

L’histoire du développement d’InfiniBand

Dans les années 1990, Intel, Microsoft et SUN ont dirigé le développement de la norme technologique « Next Generation I/O (NGIO) », tandis qu'IBM, Compaq et HP ont dirigé le développement de « Future I/O (FIO) ».

En 1999, le FIO Developers Forum et le NGIO Forum ont fusionné et ont créé le InfiniBand Association professionnelle (IBTA).

En 2000, la spécification d'architecture InfiniBand version 1.0 a été officiellement libéré.

En mai 1999, plusieurs employés qui ont quitté Intel et Galileo Technology ont fondé une entreprise de puces électroniques en Israël et l'ont baptisée Mellanox.

Après la création de Mellanox, elle a rejoint NGIO. Plus tard, Mellanox a rejoint le camp InfiniBand. En 2001, ils ont lancé leur premier produit InfiniBand. À partir de

En 2003, InfiniBand s'est tourné vers un nouveau domaine d'application, celui de l'interconnexion de clusters informatiques.

En 2004, une autre organisation à but non lucratif importante d'InfiniBand est née : l'OFA (Open Fabrics Alliance).

En 2005, InfiniBand a découvert un autre nouveau scénario : la connexion de périphériques de stockage.

Depuis lors, InfiniBand est entré dans une phase de développement rapide.

L’histoire du développement d’InfiniBand

Architecture réseau InfiniBand

InfiniBand est une structure basée sur des canaux, composée de quatre composants principaux :

  • HCA (Host Channel Adapter), qui connecte l'hôte au réseau InfiniBand.
  • TCA (Target Channel Adapter), qui connecte le périphérique cible (tel que le stockage) au réseau InfiniBand.
  • La liaison InfiniBand, qui peut être une liaison par câble, fibre ou intégrée, connecte les adaptateurs de canal aux commutateurs ou aux routeurs.
  • Commutateur et routeur InfiniBand, qui fournissent la connectivité réseau et le routage pour le réseau InfiniBand.
  • Les adaptateurs de canal sont utilisés pour établir des canaux InfiniBand. Toutes les transmissions commencent ou se terminent par des adaptateurs de canal, pour garantir la sécurité ou fonctionner à un niveau de QoS (Qualité de Service) donné.
Architecture réseau InfiniBand
sous-réseau
couche infinibande
message infiniband
transmission infinibande
norme d'interface
taux d'interface

Mellanox, acquis par Nvidia en 2020. Depuis, il est largement utilisé dans la formation de grands modèles d’IA.

bande infinie

ROCE

La naissance de RoCE

En avril 2010, IBTA a publié RoCE (RDMA over Converged Ethernet), qui « a porté » la technologie RDMA d'InfiniBand vers Ethernet. En 2014, ils ont proposé un RoCEv2 plus mature. Avec RoCEv2, Ethernet a considérablement réduit l'écart de performances techniques avec InfiniBand et, combiné à ses avantages inhérents en termes de coût et de compatibilité, il a commencé à riposter.

ROCE

ROCE V2

RoCE v1 : Un protocole RDMA basé sur la couche de liaison Ethernet (le commutateur doit prendre en charge les technologies de contrôle de flux telles que PFC, pour garantir une transmission fiable au niveau de la couche physique), qui permet la communication entre deux hôtes dans le même VLAN. RoCE V2 : surmonte la limitation de RoCE v1 étant lié à un seul VLAN. En modifiant l'encapsulation des paquets, y compris les en-têtes IP et UDP, RoCE 2 peut désormais être utilisé sur les réseaux L2 et L3.

principe de fonctionnement du rock
structure du message
IB et roche

Laisser un commentaire

Remonter en haut