Qu’est-ce que le RoCE ?

RoCE est connu sous le nom de RDMA sur Ethernet convergé. Il est donc important de reconnaître le RDMA en tant que technologie avant de comprendre le RoCE.

Qu'est-ce que RDM ?

RDMA, Remote Direct Memory Access, peut transmettre des données d'un serveur à un autre, ou du stockage à un serveur, avec une occupation très minimale du processeur. Pour envoyer des données, les applications traditionnelles doivent passer par le système d'exploitation pour empaqueter TCP/IP, puis passer par le cache principal, le cache NIC, et enfin être envoyées. Cela conduit à deux limites.

Limitation 1 : Le traitement de la pile TCP/IP introduit une latence de plusieurs dizaines de microsecondes. Lorsque la pile de protocole TCP reçoit et envoie des messages, le noyau doit effectuer plusieurs changements de contexte, chacun consommant 5 à 10 microsecondes. De plus, au moins trois copies de données et le travail du protocole dépendent du processeur. Cela signifie que le seul traitement du protocole entraînera un délai fixe de plusieurs dizaines de microsecondes. Le retard de la pile protocolaire devient le goulot d’étranglement le plus évident.

Limitation 2 : le traitement avec la pile de protocole TCP entraîne une charge élevée sur le processeur du serveur. Outre le problème d'un délai fixe plus long, le réseau TCP/IP nécessite que le processeur hôte participe plusieurs fois à la copie mémoire du protocole. Plus la taille du réseau et la bande passante du réseau sont grandes, plus la charge de planification sur le processeur lors de l'envoi et de la réception de données est importante, ce qui entraîne une charge CPU constamment élevée.

Dans les centres de données, si le protocole TCP/IP traditionnel est utilisé pour l'interconnexion réseau entre des ressources de stockage informatique distribuées à très grande échelle, il consommera une grande partie des ressources informatiques du système, entraînant des goulots d'étranglement d'E/S et ne parvenant pas à répondre aux demandes du réseau pour des performances plus élevées. débit et une latence plus faible.

mode traditionnel vers le mode rdma

RDMA est une technologie d'interconnexion réseau qui offIl offre une bande passante élevée, une faible latence et une faible consommation de processeur. Cette technologie surmonte bon nombre des obstacles généralement associés aux réseaux TCP/IP traditionnels.

Remote: Fait référence au transfert de données entre deux nœuds d'un réseau.

direct et gratuit: Aucune implication du noyau n’est requise. Tout le traitement de la transmission est offchargé sur le matériel NIC (Network Interface Card).

Mémoire: Les données sont transférées directement entre la mémoire virtuelle des applications sur les deux nœuds, sans avoir besoin de copie et de mise en cache supplémentaires.

Accès: Les opérations d'accès incluent l'envoi/réception, la lecture/écriture, etc.

Par rapport à TCP/IP, RDMA réduit l'utilisation des ressources informatiques et augmente la vitesse de transmission des données.

Le mécanisme de contournement du noyau de RDMA permet la lecture/écriture directe des données entre l'application et la carte réseau, réduisant ainsi la latence du transfert de données au sein du serveur à près de 1 microseconde. De plus, le mécanisme zéro copie du RDMA permet à l'extrémité réceptrice de lire directement les données de la mémoire de l'expéditeur, réduisant ainsi considérablement la charge du processeur et améliorant son utilisation.

Les avantages de l’utilisation de RDMA incluent :

  • Zéro copie : les applications RDMA peuvent contourner la pile réseau du noyau et transférer directement des données, éliminant ainsi le besoin de copier les données de la mémoire de l'espace utilisateur de l'application vers l'espace mémoire de la pile réseau du noyau.
  • Contournement du noyau : les applications RDMA peuvent lancer la transmission de données directement à partir du mode utilisateur, évitant ainsi le besoin de basculer le contexte entre le mode noyau et le mode utilisateur.
  • Processeur offcharge : RDMA peut accéder directement à la mémoire d'un hôte distant sans consommer de ressources CPU sur l'hôte distant. Le processeur de l'hôte distant peut alors se concentrer sur ses prérogatives, éviter les perturbations du cache et empêcher un débordement à grande échelle des données d'accès à la mémoire.

Qu’est-ce que le RoCE ?

À partir de 2010, RDMA a attiré de plus en plus d'attention lorsque l'IBTA a publié la première spécification pour exécuter RDMA sur Converged Ethernet (RoCE). Cependant, la spécification initiale limitait le déploiement de RoCE à un seul domaine de couche 2 car les trames encapsulées RoCE manquaient de capacités de routage. En 2014, l'IBTA a publié RoCEv2, qui a mis à jour la spécification RoCE initiale pour prendre en charge le routage sur les réseaux de couche 3, la rendant ainsi plus adaptée aux réseaux de centres de données à grande échelle et aux centres de données d'entreprise.

ROCE

Les protocoles RDMA incluent Infiniband (IB), Internet Wide Area RDMA Protocol (iWARP) et RDMA over Converged Ethernet (RoCE) :

  • InfiniBand: Conçu en pensant au RDMA, il a repensé la couche de liaison physique, la couche réseau et la couche de transport, pour garantir une transmission fiable au niveau matériel et fournir une bande passante plus élevée et une latence plus faible. Mais cela coûte cher et nécessite des cartes réseau et des commutateurs IB.
  • iWARP: Réseau RDMA basé sur TCP, utilisant TCP pour obtenir une transmission fiable. Par rapport à RoCE, dans le cas d'un réseau à grande échelle, le grand nombre de connexions TCP d'iWARP consommera beaucoup de ressources mémoire et nécessitera des spécifications système plus élevées. Il peut utiliser des commutateurs Ethernet ordinaires, mais nécessite des cartes réseau prenant en charge iWARP.
  • ROCE: RDMA est basé sur Ethernet, la version RoCEv1 est basée sur la couche de liaison réseau, ne peut pas traverser les segments du réseau et n'a fondamentalement aucune application. RoCEv2 est basé sur UDP, peut traverser des segments de réseau, a une bonne évolutivité et peut atteindre de bonnes performances de débit et de latence, c'est donc la solution adoptée à grande échelle. RoCE consomme moins de ressources que iWARP et prend en charge plus de fonctionnalités que iWARP. Il peut utiliser des commutateurs Ethernet ordinaires mais nécessite des cartes réseau prenant en charge RoCE.
application rdma

Pourquoi RoCE est-il le protocole RDMA principal ?

Parlons d’abord d’iWARP. La pile de protocoles iWARP est plus complexe que les deux autres et, en raison des limitations de TCP, elle ne peut prendre en charge qu'une transmission fiable. Par conséquent, le développement d'iWARP n'est pas aussi bon que celui de RoCE et Infiniband.

Le protocole Infiniband lui-même définit un nouvel ensemble d'architecture hiérarchique, de la couche liaison à la couche transport, incompatible avec les périphériques Ethernet existants. Par exemple, si un centre de données souhaite passer d'Ethernet à Infinibande En raison de problèmes de performances, elle doit acheter un ensemble complet d'appareils Infiniband, comprenant des cartes réseau, des câbles, des commutateurs, des routeurs, etc., ce qui est trop coûteux.

L’avantage du protocole RoCE est ici très évident. Les utilisateurs n'ont qu'à acheter des cartes réseau prenant en charge RoCE pour passer d'Ethernet à RoCE, et d'autres périphériques réseau sont compatibles. Par conséquent, le principal avantage de RoCE par rapport à Infiniband est son coût inférieur.

L'avantage du protocole RoCE

RoCEv1

En avril 2010, IBTA a publié RoCE, qui a été publié sous forme d'addendum à la spécification d'architecture Infiniband, il est donc également appelé IBoE (InfiniBand over Ethernet). À cette époque, la norme RoCE utilisait la couche réseau IB au lieu de la couche réseau TCP/IP au-dessus de la couche liaison Ethernet, elle ne prenait donc pas en charge la fonction de routage IP. Le protocole RoCE V1 a un typeID de 0x8915 au niveau de la couche Ethernet.

Dans RoCE, l'en-tête du protocole de couche de liaison Infiniband est supprimé et le GUID utilisé pour indiquer l'adresse est converti en Ethernet MAC. Infiniband s'appuie sur une transmission physique sans perte, et RoCE s'appuie également sur une transmission Ethernet sans perte, ce qui entraîne des coûts et des frais de gestion pour le déploiement d'Ethernet.

La transmission sans perte d'Ethernet doit s'appuyer sur la prise en charge de la qualité de service L2, telle que PFC (Priority Flow Control). Lorsque le pool de mémoire tampon dépasse le seuil, le récepteur envoie une trame de pause à l'expéditeur. Après avoir reçu la trame de pause, la couche MAC de l'expéditeur réduit automatiquement le taux de transmission. Cette exigence signifie que tous les nœuds sur l'ensemble de la liaison de transmission, y compris l'extrémité, le commutateur et le routeur, doivent tous prendre en charge la QoS L2, sinon le PFC sur la liaison ne peut pas jouer un rôle efficace aux deux extrémités.

RoCEv2

Étant donné que la trame de données de RoCEv1 n'a pas d'en-tête IP, elle ne peut communiquer qu'au sein du sous-réseau L2. Pour résoudre ce problème, IBTA a proposé RoCE V2 en 2014, qui étendait RoCEv1, en remplaçant le GRH (Global Routing Header) par un en-tête UDP + un en-tête IP. La structure du cadre étendu est illustrée dans la figure suivante. Pour RoCE v1 et RoCE v2, les deux points suivants sont à noter :

  • RoCE v1 (couche 2) fonctionne sur la couche de liaison Ehternet (couche 2), donc Ethertype 0x8915, donc la taille de trame normale est de 1500 9000 octets et la trame Jumbo est de XNUMX XNUMX octets.
  • RoCE v2 (couche 3) fonctionne sur UDP/IPv4 ou UDP/IPv6 (couche 3) et utilise le port UDP 4791 pour la transmission. Étant donné que le paquet RoCE v2 peut être acheminé sur la couche 3, il est parfois appelé Routable RoCE ou simplement RRoCE.
RoCE v1 (couche 2) fonctionne sur la couche de liaison Ehternet (couche 2)

Étant donné que le RDMA nécessite un réseau sans perte de paquets pour éviter une dégradation drastique des performances, la technologie RoCE doit transformer le réseau Ethernet traditionnel en un réseau Ethernet sans perte à l'aide des technologies PFC, ECN et DCQCN, pour garantir l'absence de perte de paquets.

le réseau sans perte pour la roche

PFC : Contrôle de flux basé sur les priorités. PFC fournit un contrôle de flux basé sur la priorité par saut pour différents types de trafic.

Lors du transfert de paquets, l'appareil attribue les paquets aux files d'attente pour la planification et le transfert en recherchant la priorité des paquets dans la table de mappage des priorités. Lorsque le débit d'envoi des paquets prioritaires 802.1p dépasse le débit de réception et que l'espace tampon de données au niveau du récepteur est insuffisant, le récepteur envoie une trame de pause PFC à l'expéditeur. Lorsque l'expéditeur reçoit la trame de pause PFC, il arrête d'envoyer des paquets avec la priorité 802.1p spécifiée jusqu'à ce qu'il reçoive une trame PFC XON ou que le délai de vieillissement expire. Lors de la configuration de PFC, la congestion d'un type spécifique de paquet n'affecte pas le transfert normal d'autres types de paquets.

ECN : notification explicite de congestion. ECN définit un mécanisme de contrôle du trafic et de notification de congestion de bout en bout basé sur la couche IP et la couche transport. Lorsque l'appareil est encombré, ECN marque le champ ECN dans l'en-tête IP du paquet. Le récepteur envoie un paquet de notification de congestion (CNP) pour avertir l'expéditeur de ralentir la vitesse d'envoi. ECN met en œuvre une gestion de la congestion de bout en bout, réduisant ainsi la propagation et l'aggravation de la congestion.

PFC ECN

DCQCN (Data Center Quantized Congestion Notification) : actuellement l'algorithme de contrôle de congestion le plus largement utilisé dans les réseaux RoCEv2. Il fusionne les algorithmes QCN et DCTCP et nécessite que les commutateurs du centre de données prennent en charge WRED et ECN. DCQCN peut offrir une meilleure équité, atteindre un taux d'utilisation de bande passante élevé, garantir un faible taux d'occupation du tampon de file d'attente et moins de gigue du tampon de file d'attente.

À l’heure actuelle, de nombreux fabricants disposent de leurs propres solutions réseau sans perte.

Huawei

La solution d'algorithme intelligent sans perte iLossless de Huawei est un algorithme d'IA qui utilise l'intelligence artificielle pour réaliser la planification de la congestion du réseau et l'auto-optimisation du réseau. Il est centré sur l'ECN automatique et introduit l'apprentissage par renforcement profond (DRL) dans les commutateurs de centres de données ultra-rapides. Basé sur l'algorithme intelligent sans perte iLossless, Huawei a lancé la solution de réseau de centre de données super-convergé CloudFabric 3.0, ouvrant la voie à l'ère intelligente sans perte vers la version 1.0.

En 2022, le réseau de centres de données hyper-convergé de Huawei a proposé une technologie intelligente d'intégration de calcul Web sans perte et une architecture de topologie de connexion directe innovante, qui peuvent réaliser un réseau de hub informatique à grande échelle de 270 25. Le délai peut être encore réduit de 1.0 % sur la base de la version XNUMX intelligente sans perte.

Huawei Intelligent Lossless 2.0 est basé sur l'informatique en réseau et l'informatique tenant compte de la topologie pour réaliser une synergie réseau et informatique. Le réseau participe à la collecte et à la synchronisation des informations informatiques, réduisant ainsi le nombre de synchronisations des informations informatiques. Simultanément, il garantit l'achèvement des tâches informatiques à proximité des nœuds informatiques grâce à la planification, réduisant ainsi les sauts de communication et réduisant davantage la latence des applications.

H3C

L'algorithme intelligent sans perte AI ECN de H3C, qui s'appuie sur le modèle de trafic réseau (valeurs Incast, profondeur de file d'attente maximale, proportion de flux grands et petits, entre autres caractéristiques du trafic dans le modèle N-to-1), utilise des algorithmes d'apprentissage par renforcement pour former les IA avec le modèle de trafic. L'IA peut détecter et prédire les tendances du trafic réseau en temps réel et ajuster automatiquement le seuil ECN le plus optimal pour une planification précise des files d'attente. Ce faisant, il équilibre la transmission des petits flux sensibles à la latence et des flux plus importants sensibles au débit pour garantir des performances réseau optimales, tout en évitant le déclenchement du contrôle de congestion du réseau PFC.

La solution réseau sans perte AD-DC SeerFabric de H3C est basée sur une architecture collaborative d'IA Edge-Cloud. En innovant et en optimisant l'algorithme de réglage AI ECN du secteur et en combinant la capacité locale AI Inside du commutateur de centre de données de H3C, cette solution augmente le débit et diminue la latence tout en garantissant zéro perte de paquets. Il garantit une qualité de service réseau et un transfert précis. De plus, grâce à des opérations et une maintenance intelligentes et précises, il visualise l'expérience de service des réseaux RoCE.

Inspur

En avril 2022, Inspur Networks a lancé sa solution Ethernet sans perte typique, centrée sur les commutateurs Ethernet des centres de données prenant en charge la technologie RoCE. La solution offprésente les avantages suivants :

1. Intégration transparente de l'informatique, du stockage, de la mise en réseau et de l'AIStation. Il prend en charge les technologies de gestion de la congestion telles que PFC et ECN, permettant l'établissement de réseaux RDMA de bout en bout, sans perte et à faible latence. L'excellent avantage du commutateur en matière de tampon peut absorber le trafic en rafale en douceur, gérant ainsi efficacement TCP dans les scénarios de diffusion.

2. Découverte proactive des pannes et basculement automatique. Les réseaux RoCE-SAN peuvent collaborer avec les opérations de stockage pour une détection rapide des pannes. Le commutateur peut détecter rapidement les états de panne et notifier les serveurs abonnés aux messages de notification dans le domaine métier concerné, permettant ainsi de passer rapidement à des voies redondantes et de réduire les impacts sur l'entreprise. Pour les environnements Ethernet à grande échelle et sans perte rencontrant des problèmes de blocage PFC, la solution fournit un mécanisme de prévention des blocages PFC au niveau de la puce pour la détection et la récupération automatiques des blocages.

3. Stockage prêt à l'emploi. Les réseaux RoCE-SAN peuvent détecter automatiquement l'incorporation de serveurs de périphériques et de périphériques de stockage, informant les serveurs d'établir automatiquement des connexions avec les périphériques de stockage.

Laisser un commentaire

Remonter en haut