Explorer les centres de données Internet : l'évolution du DCN

Évolution de la demande des réseaux de centres de données (DCN)

Le réseau est un élément crucial de l'infrastructure informatique, servant de base qui connecte toutes les ressources de la couche IaaS pour fournir des services. À l’ère des données, le cœur du cloud computing, du big data et de l’intelligence artificielle sont les données elles-mêmes, le réseau agissant comme une autoroute à grande vitesse qui transporte le flux de données.

Les réseaux de centres de données ont subi des changements remarquables au cours de la dernière décennie, passant des centres de données rigoureux et standardisés du secteur financier aux sociétés Internet actuelles qui mènent la vague technologique.

Évolution de la demande des réseaux de centres de données (DCN)

Aujourd'hui, avec le développement rapide des technologies cloud natives, qui englobent plus de 200 projets, le développement, le déploiement, l'exploitation et la maintenance des applications se sont transformés. Une multitude de systèmes d'applications sont construits à l'aide de technologies cloud natives, les conteneurs constituant la plus petite unité de charge de travail d'entreprise, caractérisée par l'agilité, la cohérence et de solides capacités de réplication et d'évolutivité. Les clusters composés de nombreux conteneurs dépassent de loin le nombre de VM. De plus, des mécanismes d'allocation de ressources plus fins et des stratégies de distribution de fiabilité ont conduit à une communication et une interaction entre nœuds plus fréquentes entre les conteneurs métier et les divers composants du système distribué. Ceux-ci s'appuient sur des réseaux externes pour fournir un transfert fiable de bout en bout, ce qui soulève des exigences plus élevées en matière de contrôle et de visualisation du trafic.

En outre, avec l’adoption généralisée des technologies du Big Data et de l’intelligence artificielle, les systèmes basés sur celles-ci, tels que les moteurs de recommandation, la recherche et la reconnaissance d’images, l’interaction vocale et la traduction automatique, ont été largement appliqués. Le Big Data et l’IA sont devenus des outils essentiels pour la gestion des entreprises et la concurrence sur le marché, avec d’énormes quantités de données stockées à des fins d’analyse et d’exploration. Du traitement des données et de la formation de modèles (apprentissage automatique/apprentissage profond) aux services en ligne, chaque étape repose sur un calcul puissant et de vastes données, augmentant ainsi la consommation de ressources de calcul et de stockage. Cela a incité l'évolution de la construction de centres de données vers des projets à grande et très grande échelle, avec une échelle de réseau qui s'accroît également, ce qui rend l'automatisation et le fonctionnement intelligent du réseau une nécessité.

Enfin, il est important de mentionner la croissance explosive des vidéos longues et courtes, du streaming en direct, de la VR/AR et d'autres médias de streaming vidéo au cours des deux dernières années. Ceux-ci ont pénétré divers domaines tels que l'actualité, l'éducation, le shopping, la socialisation, les voyages et les jeux de divertissement, avec une vaste base d'utilisateurs et une durée d'utilisation élevée. Parallèlement à la prolifération rapide des terminaux 5G, les attentes des utilisateurs en matière de vidéos de haute qualité et d'expériences de visionnage à faible latence continuent d'augmenter, ce qui accroît encore la consommation de bande passante du réseau.

En réponse à l'évolution des exigences commerciales et au développement rapide de la technologie réseau, la vitesse d'itération des équipements réseau des centres de données s'est également accélérée. Actuellement, commutateurs de centre de données sont mis à jour avec une nouvelle génération de produits tous les deux ans, et chaque nouvelle génération offLes utilisateurs ont presque doublé les performances, un débit plus élevé, des entrées de table plus grandes et plus de fonctionnalités, avec un positionnement de rôle plus ciblé dans le réseau.

nouvelle génération
Commutateur CPO 800G
Évolution du produit H3C basé sur les puces de la série Tomahawk

Poussé par l'environnement industriel global des cartes réseau côté serveur et des modules optiques, la bande passante des liaisons d'accès aux centres de données a évolué de 10G -> 25G -> 50G -> 100G -> 200G -> 400G, et la bande passante des liaisons d'interconnexion a évolué de 40G -> 100G -> 200G -> 400G -> 800G. Le scénario principal est passé d’une combinaison accès 25G + interconnexion 100G à la combinaison actuelle accès 100G + interconnexion 400G. Dans les scénarios GPU, l'accès passera de 100G, 200G à 400G, 800G.

Évolution du produit H3C basé sur les puces de la série Trident
Évolution du produit H3C basé sur les puces de la série Trident

Compte tenu du contexte susmentionné et de l'architecture du réseau, le choix de l'architecture du réseau DCN est influencé par de nombreux facteurs tels que les exigences commerciales, les conditions technologiques actuelles, les coûts d'équipement, les coûts de gestion et l'investissement en ressources humaines. Il n’existe pas d’architecture unique capable de répondre à tous les scénarios et besoins des clients ; une considération globale et un équilibre doivent être effectués avant de faire un choix.

Architecture Clos à deux niveaux : adaptée aux centres de données de petite et moyenne taille

L’architecture Clos à deux niveaux est l’une des structures de réseau les plus anciennes et les plus largement appliquées, et elle reste à ce jour le choix préféré de nombreux clients de l’industrie. L'équipement réseau ne joue que deux rôles, assurer des chemins de transmission de données courts, avec une accessibilité inter-feuilles en un seul saut, et offoffrant une forte cohérence dans les chemins et la latence. L'approche d'accès unifié facilite grandement le déploiement et la mise à l'échelle horizontale, comme le déploiement de protocoles BGP, le contrôle des politiques, la maintenance de routine et le dépannage. Il est particulièrement adapté aux petites et moyennes entreprises disposant de moins de personnel opérationnel.

L'architecture Clos à deux niveaux impose des exigences élevées en matière de performances et de fiabilité aux commutateurs Spine, qui utilisent généralement des produits de commutation principaux basés sur un châssis de centre de données. Grâce à des mécanismes de transfert de cellules variables et de planification VoQ, il garantit une commutation stricte et non bloquante au sein des appareils Spine, et la configuration de grands caches distribués excelle naturellement dans la gestion des rafales de trafic. Les commutateurs principaux basés sur châssis disposent de plans de contrôle, de plans de transfert et de systèmes de support indépendants, et ils utilisent des conceptions redondantes, ce qui rend l'ensemble du système beaucoup plus fiable que les commutateurs de type boîtier.

Solution de centre de données basée sur les applications H3C AD-DC
Solution de centre de données basée sur les applications H3C AD-DC

L'architecture Clos à deux niveaux est plus mature dans sa compatibilité avec les solutions de contrôleurs SDN commerciales. Associé à un contrôleur SDN, il peut rapidement créer des solutions de superposition de réseau basées sur EVPN, réduisant ainsi la complexité du déploiement de chaînes de services est-ouest et nord-sud et répondant à la demande du réseau en matière de liaison complète de ressources informatiques, telles que les machines virtuelles, le bare metal. , et les conteneurs, dans des scénarios cloud.

De plus, cette architecture convient également aux grandes entreprises qui déploient des salles de convergence et des salles de périphérie dans divers endroits pour construire des réseaux informatiques de pointe, allégeant ainsi la pression du réseau fédérateur et réduisant la latence d'accès.

Exemple de Clos à double colonne à deux niveaux
Exemple de Clos à double colonne à deux niveaux
Exemple de Clos Quad Spine à deux niveaux
Exemple de Clos Quad Spine à deux niveaux

Les Spines utilisent 2 ou 4 commutateurs principaux basés sur un châssis, et chaque commutateur Leaf dispose de 4 liaisons montantes. Assurant un taux de convergence de 3:1 (10G Leaf avec 440G de liaisons montantes, 4810G de liaisons descendantes ; 25G Leaf avec 4100G de liaisons montantes, 4825G de liaisons descendantes), l'échelle de serveur prise en charge (double liaison montante) peut atteindre plus de 5000 10000 et XNUMX XNUMX, respectivement.

Comme le montre la topologie, l'échelle du réseau, ou la capacité d'expansion horizontale, de l'architecture Clos à deux niveaux est limitée par le nombre total de ports fournis par les appareils Spine (nombre d'appareils * ports par appareil). Étant donné que le nombre de ports de liaison montante sur les commutateurs Leaf est fixe (généralement 4 à 8), le nombre de commutateurs de couche Spine est également limité et ne peut pas être augmenté de manière continue.

Architecture Clos à trois niveaux : adaptée aux centres de données à grande et à grande échelle

L'échelle de serveur prise en charge par l'architecture Clos à deux niveaux ne dépasse généralement pas 20,000 XNUMX unités. L'introduction de l'architecture Clos à trois niveaux résout le goulot d'étranglement à l'échelle du réseau présenté par l'architecture à deux niveaux. L'architecture Clos à trois niveaux ajoute une couche de commutateurs d'agrégation (Pod Spine) entre les deux couches existantes. Un groupe de commutateurs Pod Spine, ainsi que tous les commutateurs Leaf connectés, forment un Pod. Plusieurs pods sont interconnectés via les commutateurs de la couche Spine pour composer l'ensemble du réseau. L'augmentation du nombre de pods permet une mise à l'échelle horizontale du réseau, améliorant considérablement sa capacité d'expansion. De plus, le déploiement de services par unité Pod offoffre une plus grande flexibilité pour s’adapter aux différents besoins de l’entreprise, fournir des services différenciés et garantir l’isolement.

Exemple A de Clos à trois niveaux : SPIN avec 64 ports de 100 G
Exemple A de Clos à trois niveaux : SPIN avec 64 ports de 100 G
Exemple B de Clos à trois niveaux : SPIN avec 128 ports de 100 G
Exemple B de Clos à trois niveaux : SPIN avec 128 ports de 100 G

Au sein de chaque pod de l'architecture Clos à trois niveaux, le Pod Spine utilise quatre ou huit commutateurs de type boîtier 100G haute densité. La moitié des ports du Pod Spine sont utilisés pour se connecter vers le haut au Spine, et l'autre moitié pour se connecter vers le bas aux commutateurs Leaf. Chaque commutateur Leaf dispose de quatre ou huit liaisons montantes. Les scénarios typiques sont les suivants :

Scénario A : Le Pod Spine utilise quatre commutateurs de type boîtier 64G à 100 ports (S9820-64H). Chaque commutateur Leaf dispose de quatre liaisons montantes. Avec une convergence de 3:1 au sein du Pod (25G Leaf avec liaisons montantes 4100 4825 G, liaisons descendantes 768 XNUMXG), un seul Pod peut prendre en charge une échelle de serveur de XNUMX unités avec des liaisons montantes doubles.

Scénario B : Le Pod Spine utilise huit commutateurs de type boîtier 128G à 100 ports (S9820-8C). Chaque commutateur Leaf dispose de huit liaisons montantes. Avec une convergence de 1.5:1 au sein du Pod (25G Leaf avec liaisons montantes 8100 4825G, liaisons descendantes 1536 1G), un seul Pod peut prendre en charge une échelle de serveur de 1 25 unités avec des liaisons montantes doubles. Avec une convergence 8100:3225 (1024G Leaf avec liaisons montantes XNUMX XNUMXG, liaisons descendantes XNUMX XNUMXG), un seul pod peut prendre en charge une échelle de serveur de XNUMX XNUMX unités avec des liaisons montantes doubles.

L'introduction du commutateur d'agrégation haute densité Pod Spine a permis aux commutateurs centraux de type rack de la couche Spine de dépasser les limites, permettant le déploiement de dizaines d'unités. Le nombre total de ports fournis par les commutateurs centraux de type rack de la couche Spine peut être utilisé pour connecter des dizaines de pods, permettant à l'ensemble du réseau de prendre en charge une échelle de serveur de plus de 100,000 XNUMX unités.

De plus, en ajustant le rapport entre les ports de liaison montante et descendante au sein des commutateurs Pod Spine, il est possible de définir de manière flexible le taux de convergence pour chaque pod. Cela répond non seulement aux différents besoins de l’entreprise, mais contribue également à réduire les coûts et à éviter le gaspillage inutile.

Architecture Clos multiniveau : adaptée aux centres de données à grande et à grande échelle

L'architecture de réseau multiplan basée sur des appareils de type boîtier est la dernière architecture adoptée par les principales sociétés Internet pour construire des réseaux de centres de données à grande et hyper-échelle. Cette architecture est issue du F4 de Facebook. Les deux générations de commutateurs utilisées pour construire ce réseau, le 6-pack et le Backpack, étaient basées sur une conception multi-puces (12 puces), ce qui rendait la gestion et le déploiement peu pratiques et coûteux. Avec l'évolution du F4 au F16, grâce à l'amélioration des capacités des puces, le commutateur Minipack utilisé pour construire le F16 a adopté une conception à puce unique, réduisant considérablement la consommation d'énergie, les coûts et les barrières techniques. La solution est devenue plus mature et depuis, cette architecture a été introduite par les sociétés Internet en Chine.

de mise en réseau

Les articles « Présentation de Data Center Fabric, le réseau de centres de données Facebook de nouvelle génération » et « Réinventer le réseau de centres de données de Facebook » fournissent des explications détaillées de cette architecture. Par rapport à l'architecture Clos à trois niveaux, l'architecture de réseau multiplan basée sur des dispositifs de type boîtier remplace les commutateurs de type rack de la couche Spine par des commutateurs de type boîtier, ainsi toutes les couches du réseau sont composées de commutateurs de type boîtier. En termes de connectivité des appareils, contrairement à l'architecture Clos à trois niveaux où chaque Pod Spine doit être entièrement maillé avec tous les commutateurs de la couche Spine, la nouvelle architecture divise les commutateurs de la couche Spine en plusieurs groupes (le nombre de groupes correspond au nombre de Pod Commutateurs de colonne vertébrale dans chaque Pod). Chaque groupe de commutateurs Spine forme un plan (comme le montre la figure, la couche Spine est divisée en 8 plans, distingués par des couleurs différentes), et chaque commutateur Pod Spine doit seulement être entièrement maillé avec les commutateurs Spine dans le plan correspondant. Cela permet à l'ensemble de la couche Spine de connecter davantage de pods, créant ainsi un centre de données à grande échelle prenant en charge des centaines de milliers de serveurs. De plus, à mesure que les performances des commutateurs de type boîtier s'améliorent, cette architecture peut continuer à étendre sa capacité.

Un commutateur de châssis principal S12516X-AF avec une carte de service 48G à 100 ports entièrement équipée, ainsi que six commutateurs boîtiers S9820-8C avec 128 ports de 100G chacun, peuvent tous deux fournir le même nombre de 100G ports (768 au total). Cependant, opter pour la solution box switch offIl présente des avantages significatifs en termes de coût, de consommation d'énergie et de dissipation thermique. Il élimine également les exigences particulières en matière d'espace dans l'armoire et de distribution d'énergie que nécessitent les commutateurs de châssis traditionnels.

Étant donné que Spine et Pod Spine utilisent des équipements identiques avec des fonctionnalités et des délais de transfert cohérents, cela facilite le développement de nouvelles fonctionnalités et le déploiement transparent d’applications sur l’ensemble du réseau. De plus, le réseau peut passer en douceur du réseau 100G au réseau 200G, 400G, et les futurs réseaux à plus grande vitesse en synchronisation. De plus, en raison de la conception à puce unique, l'ensemble de la couche Spine construite avec des commutateurs de boîtier présente une latence de transfert nettement inférieure par rapport à l'utilisation de dispositifs de châssis, réduisant encore davantage la latence d'accès entre les pods.

Néanmoins, cette architecture introduit de nouveaux défis. La quantité de dispositifs de la couche Spine est nettement plus élevée que lors de l'utilisation de commutateurs de châssis, et la fiabilité individuelle des commutateurs de boîtier est inférieure à celle des commutateurs de châssis principaux, ce qui pose des défis substantiels pour la gestion du réseau et les opérations quotidiennes. Les plates-formes de gestion, les systèmes de surveillance et bien plus encore doivent être adaptables à ces changements. Cela nécessite des exigences accrues pour les équipes d'exploitation du réseau, notamment une division du personnel affinée, une vaste expérience opérationnelle, de solides compétences techniques, des capacités de développement de plate-forme et un contrôle global du réseau pour atténuer et réduire l'impact des pannes d'équipement et de réseau sur les opérations commerciales.

gRPC+INT

Les trois architectures de réseau DCN les plus typiques ont été présentées ci-dessus. La gestion efficace de ces réseaux nécessite l’utilisation de la technologie de visualisation de réseau. La technologie de visualisation de réseau permet non seulement de surveiller le trafic de bout en bout, d'alerter sur les risques et d'aider au dépannage, mais elle peut également, grâce à l'accumulation et à l'analyse des données, guider et optimiser la conception de l'architecture réseau des centres de données (telles que les modèles, les taux de convergence, et balances POD), ce qui en fait un outil technique crucial.

La technologie de visualisation de réseau devient de plus en plus proactive, efficace et intelligente. Par exemple, l’utilisation de gRPC permet une collecte en temps réel et de haute précision de diverses informations provenant des appareils. INT ou Telemetry Stream peut être utilisé pour obtenir le chemin et la latence de la transmission des données d'entreprise dans le réseau. TCB permet de surveiller les MMU des appareils pour capturer le temps de perte des paquets de file d'attente, les raisons et les paquets rejetés. MOD peut détecter la perte de paquets survenant lors des processus de transfert internes du périphérique et capturer les raisons de la perte de paquets et les caractéristiques des paquets rejetés. Packet Trace permet une analyse approfondie de la logique de transfert, en simulant le transfert de paquets au sein des puces pour identifier les causes profondes des problèmes.

À l'avenir, les cartes réseau intelligentes joueront un rôle important dans les réseaux DCN. Les cartes réseau intelligentes dotées de capacités programmables libèrent non seulement des ressources CPU et permettent un transfert hautes performances, mais également offer fonctions telles que l'encapsulation/décapsulation de tunnel, la commutation virtuelle, le cryptage/déchiffrement, RDMA, etc. Avec l'augmentation des scénarios et des demandes commerciales, davantage de fonctions de plan de données seront gérées par des cartes réseau intelligentes, brisant ainsi les limites des implémentations basées sur un serveur ou un commutateur. Ce changement vise à atteindre un équilibre parfait entre performances, fonctionnalités et flexibilité. Les cartes réseau intelligentes remplaceront les commutateurs Leaf à l'extrémité la plus éloignée des réseaux DCN. Par conséquent, l'architecture du réseau, le déploiement des protocoles, la technologie de visualisation, etc. changeront avec l'introduction de cartes réseau intelligentes, facilitant l'optimisation des performances et l'assurance des services de bout en bout, la détection et la surveillance de bout en bout, ainsi que l'application de nouvelles technologies. comme SRv6. Les futurs réseaux DCN progresseront pour fournir des services réseau plus stables, efficaces et flexibles à des entreprises de couche supérieure de plus en plus diversifiées.

Laisser un commentaire

Remonter en haut