Serveurs AI : technologie de puce d'interconnexion d'interface

Selon les données de TrendForce, les expéditions de serveurs IA s'élevaient à environ 130,000 1 unités, ce qui représente environ 2023 % des expéditions mondiales de serveurs. Dans la perspective de 2023, Microsoft, Meta, Baidu et ByteDance ont successivement lancé des produits et services basés sur l'IA générative et augmenté activement les commandes. On estime que le taux de croissance annuel des livraisons de serveurs IA en 15.4 atteindra 12.2 %, et avec la demande future de ChatGPT pour les serveurs IA, on s'attend à ce que les serveurs IA croissent à un taux annuel composé de 2023 % de 2027 à XNUMX. .

Le DGX H100 a été lancé en 2022 et constitue la dernière itération du système DGX de NVIDIA, ainsi que la base du NVIDIA DGX SuperPOD. Les serveurs DXG sont équipés de 8 GPU H100 et de 640 milliards de transistors, et offDes performances d'IA 6 fois supérieures à celles de la génération précédente avec la nouvelle précision FP8, offrant une bande passante de 900 Go/s.

Schéma de l'architecture d'interconnexion de puce interne du serveur NVIDIA DGX H100

Source : Nvidia

À l'intérieur du serveur DGX H100, les blocs bleus sont des cartes réseau IP, qui peuvent faire office de cartes réseau et jouer également le rôle d'extension du commutateur PCIe, devenant ainsi le pont entre le CPU et le GPU (H100). Il utilise la norme PCle 5.0 en interne. De plus, CX7 est constitué de 2 cartes sous forme de puces de carte réseau à brancher sur le serveur, et chaque carte se compose de 4 puces CX7 et produit 2 ports de module optique OSFP 800G.

L'interconnexion entre les GPU (H100) est principalement réalisée par les puces NV Switch. Chaque GPU d'un DGXH100 étend 18 NVLinks vers l'extérieur, avec une bande passante bidirectionnelle de 50 Go/s par liaison, totalisant 18*50 Go/s = 900 Go/s de bande passante bidirectionnelle, qui est divisée en 4 commutateurs NV intégrés, de sorte que chaque commutateur NV correspond à 4 à 5 modules optiques OSFP (un total de 18). Chaque Module optique OSFP utilise 8 canaux optiques, avec un taux de transmission de 100 Gbit/s par canal, de sorte que le débit total atteint 800Gbps, permettant une transmission de données à grande vitesse.

Interconnexion de composants tels que CPU, GPU : PCIE Switch, puce Retimer

Le commutateur PCIe, également connu sous le nom de commutateur PCIe ou hub PCIe, est principalement utilisé pour interconnecter des périphériques PCIe, et le protocole de communication de la puce PCIe Switch et de son périphérique est PCIe. Étant donné que la communication par liaison PCIe est une sorte de transmission de données de bout en bout, le commutateur doit fournir des capacités d'extension ou d'agrégation, pour permettre à davantage de périphériques de se connecter à un port PCle, afin de résoudre le problème du nombre de canaux PCIe insuffisant. Actuellement, le commutateur PCIe est non seulement largement utilisé dans les systèmes de stockage traditionnels, mais il est également progressivement popularisé sur certaines plates-formes de serveurs afin d'améliorer la vitesse de transmission des données.

Mise à niveau de la technologie du bus PCIe, augmentation de la vitesse du commutateur PCIe par génération. Le bus PCIe est un remplacement série haute vitesse du bus PCI. En 2001, Intel a annoncé la technologie d'E/S de troisième génération pour remplacer le bus PCI, appelée « 3GIO ». En 2002, cette technologie était offici rebaptisé « PCI Express » après avoir été examiné par le PCI Special Interest Group (PCI-SIG), marquant la naissance du PCIe. En 2003, PCIe 1.0 était offlancé ici, prenant en charge un taux de transmission de 250 Mo/s par canal et un taux de transmission total de 2.5 GT/s. En 2007, PCI-SIG a annoncé le lancement de la spécification PCI Express Base 2.0. Sur la base de PCIe 1.0, le taux de transmission total a été doublé pour atteindre 5 GT/s et le taux de transmission par canal est passé de 250 Mo/s à 500 Mo/s. En 2022, PCI-SIG offa officiellement publié la spécification PCIe 6.0, augmentant la bande passante totale à 64 GT/s.

PCle 1.0 à 6.0

Source: Wikipedia

À mesure que le PCIe est de plus en plus utilisé dans les serveurs, la demande du marché pour les commutateurs PCIe augmente également. Selon les statistiques et les prévisions de QYResearch, les ventes du marché mondial des puces PCIe ont atteint 790 millions de dollars américains en 2021 et devraient atteindre 1.8 milliard de dollars américains en 2028, avec un taux de croissance annuel composé (TCAC) de 11.9 %.

Commutateur PCle

Source : Asmedia, BroadCom et Microchip

La Chine est le plus grand marché pour les commutateurs PCIe. À mesure que la demande de stockage et de transmission massifs de données sur des serveurs augmente, un grand nombre de solutions d'interconnexion à haut débit sont nécessaires pour réaliser une transmission massive de données dans les domaines du big data, du cloud computing, de l'intelligence artificielle, etc. solution, le commutateur PCIe est très demandé sur le marché chinois.

Dans les serveurs AI, au moins une puce Retimer est requise pour garantir la qualité du signal lorsque le GPU et le CPU sont connectés. Plus précisément, de nombreux serveurs IA configureront plusieurs puces Retimer, comme Astera Labs, qui configure quatre puces Retimer dans l'accélérateur AI.

Resynchronisation de l'IA

Source : Laboratoires Astera

PCIe Retimer est un marché océan bleu avec trois fabricants leaders et de nombreux concurrents potentiels. Actuellement, Parade Technologies, Astera Labs et Montage Technology sont les trois principaux fournisseurs sur le marché de l'océan bleu PCIe Retimer, occupant la position dominante. Parmi eux, Montage Technology a déployé PCIe plus tôt et est le seul fournisseur de Chine continentale capable de produire en masse le PCIe 4.0 Retimer, et son développement du PCIe 5.0 Retimer progresse sans problème.

PCIe

Source : Montage Technology, Astera Labs et Parade Technologies

En outre, des fabricants de puces, notamment Renesas, TI, Microchip Technology et d'autres, sont également activement impliqués dans le développement de produits PCIe Retimer. Selon le offInformations sur le site Web officiel, Renesas peut fournir deux produits PCIe 3.0 Retimer, à savoir 89HT0816AP et 89HT0832P ; TI peut fournir un retimer PCIe 16 à 8 canaux de 4.0 Gbit/s – DS160PT801 ; de même, Microchip Technology a lancé la série XpressConnect de puces Retimer en novembre 2020, qui peut prendre en charge le débit de 5.0 GT/s de PCIe 32.

Connexion GPU-GPU : NVLink, NVSwitch

Les fabricants mondiaux de puces s'intéressent aux technologies associées aux interfaces à haut débit. En plus du NVLink de NVIDIA, l'Infinity Fabric d'AMD et le CXL (Compute Express Link) d'Intel fournissent également des solutions d'interconnexion à haut débit au sein des serveurs.

Le NVlink continuellement mis à jour a déclenché une révolution dans la technologie d’interconnexion à haut débit. NVLink est une technologie d'interconnexion à haut débit développée par NVIDIA, qui vise à accélérer la vitesse de transfert de données entre CPU et GPU, GPU et GPU, et à améliorer les performances du système. De 2016 à 2022, NVLink est passé à la quatrième génération. En 2016, NVIDIA a lancé la nouvelle puce d'interface haute vitesse – NVLink, portée par le GPU Pascal GP100. Il s'agit de la première génération de NVLink. NVLink utilise la technologie NVHS (High-Speed ​​Signaling Interconnect), qui est principalement utilisée pour la transmission de signaux entre GPU et GPU, GPU et CPU. Les GPU transmettent des signaux électriques à impédance différentielle sous forme de codage NRZ (Non-Return-to-Zero). La liaison unique NVLink de première génération peut atteindre 40 Go/s de bande passante bidirectionnelle, et une seule puce peut prendre en charge quatre liaisons, soit 160 Go/s de bande passante bidirectionnelle totale.

comparaison de nvlink de quatre générations

Source : Nvidia

Technologie NVLink a subi plusieurs itérations et mises à jour, déclenchant une vague d'innovation dans la technologie d'interconnexion à haut débit. En 2017, la deuxième génération de NVLink basée sur l'architecture Volta a été lancée, qui peut atteindre 50 Go/s de bande passante bidirectionnelle par lien et prendre en charge six liens par puce, soit 300 Go/s de bande passante bidirectionnelle totale. En 2020, la troisième génération de NVLink basée sur l'architecture Ampere a été lancée, qui peut atteindre 50 Go/s de bande passante bidirectionnelle par lien et prendre en charge 12 liens par puce, soit 600 Go/s de bande passante bidirectionnelle totale. En 2022, la quatrième génération de NVLink basée sur l'architecture Hopper a été lancée, qui a changé le signal de transmission en signal électrique modulé PAM4, et peut atteindre 50 Go/s de bande passante bidirectionnelle par liaison et prendre en charge 18 liaisons par puce, c'est-à-dire 900 Go/s de bande passante bidirectionnelle totale.

En 2018, NVDIA a lancé la première génération de NVSwitch, qui fournissait une solution permettant d'améliorer la bande passante, de réduire la latence et de permettre la communication entre plusieurs GPU au sein du serveur. La première génération de NVSwitch a été fabriquée à l’aide du processus FinFET 12 nm de TSMC et disposait de 18 interfaces NVLink 2.0. Un serveur peut prendre en charge 16 GPU V100 via 12 NVSwitches, atteignant ainsi la vitesse d'interconnexion la plus élevée avec NVLink.

Comparaison de trois générations de performances de commutateur NV

Source : Nvidia

Actuellement, NVSwitch est passé à la troisième génération. La troisième génération de NVSwitch est construite à l'aide du processus 4N de TSMC et chaque puce NVSwitch dispose de 64 ports NVLink 4.0. La vitesse de communication entre les GPU peut atteindre 900 Go/s, et ces GPU connectés par NVLink Switch peuvent être utilisés comme un seul accélérateur haute performance doté de capacités d'apprentissage en profondeur.

L'interconnexion à grande vitesse entre le processeur et la DRAM stimule la demande de puces d'interface mémoire.

Les principaux types de modules de mémoire de serveur sont RDIMM et LRDIMM, qui ont des exigences plus élevées en matière de stabilité, de correction d'erreurs et de faible consommation d'énergie que les autres types de modules de mémoire. La puce d'interface mémoire est le dispositif logique principal du module de mémoire du serveur et constitue le chemin nécessaire pour que le processeur du serveur accède aux données de la mémoire. Sa fonction principale est d'améliorer la vitesse et la stabilité de l'accès aux données mémoire et de répondre aux besoins croissants de hautes performances et de grande capacité du processeur du serveur pour les modules de mémoire.

Classification des modules de mémoire et applications en aval

Source : RPSC

La vitesse des puces d'interface mémoire continue d'augmenter de la DDR4 à la DDR5. Depuis 2016, la DDR4 est devenue la technologie dominante sur le marché de la mémoire. Pour atteindre une vitesse de transmission plus élevée et prendre en charge une plus grande capacité de mémoire, l'organisation JEDEC a encore mis à jour et amélioré les spécifications techniques des puces d'interface mémoire DDR4. Dans la génération DDR4, de Gen1.0, Gen1.5 et Gen2.0 à Gen2plus, la vitesse de transmission la plus élevée prise en charge par chaque sous-génération de puces d'interface mémoire a augmenté continuellement, et le dernier produit de sous-génération de DDR4, Gen2plus, prend en charge une transmission maximale de 3200MT/s. Alors que l'organisation JEDEC continue d'améliorer la définition des spécifications des produits d'interface mémoire DDR5, la technologie de mémoire DDR5 remplace progressivement la technologie de mémoire DDR4.

Actuellement, les puces d'interface mémoire DDR5 ont prévu trois sous-générations, avec des taux de prise en charge de 4800 5600 MT/s, 6400 1 MT/s et 2 XNUMX MT/s respectivement. L’industrie s’attend à ce qu’il y ait une à deux sous-générations supplémentaires dans le futur.

Les puces d'interface mémoire sont divisées en deux types selon leurs fonctions, à savoir le tampon de registre (RCD) et le tampon de données (DB). RCD est utilisé pour mettre en mémoire tampon les signaux d'adresse, de commande et de contrôle du contrôleur de mémoire, et DB est utilisé pour mettre en mémoire tampon les signaux de données du contrôleur de mémoire ou des granules de mémoire.

DDR4, DDR5

Source : Technologie de montage

La mise à niveau des modules de mémoire DDR5 offre de nouvelles opportunités pour les puces d'interface mémoire et les puces prenant en charge les modules. En 2016, la taille du marché mondial des puces d'interface mémoire était d'environ 280 millions de dollars américains, et elle a atteint environ 570 millions de dollars américains en 2018, avec un taux de croissance annualisé sur trois ans de 40 %. La mise à niveau de la DDR5 portera la taille du marché des puces d'interface mémoire à un nouveau niveau. Par rapport à la DDR4, en raison du taux de support plus élevé et de la conception plus complexe de la DDR5, le prix de départ de la première sous-génération de puces d'interface mémoire DDR5 est supérieur à celui des puces d'interface mémoire DDR4. Dans le même temps, à mesure que le taux de pénétration de la mémoire DDR5 dans les serveurs et les PC augmente progressivement, la taille du marché des puces d'interface mémoire DDR5 devrait connaître une croissance rapide.

L'industrie des puces d'interface mémoire se heurte à des barrières élevées et un modèle à trois branches s'est formé. Les puces d'interface mémoire sont une industrie à forte intensité technologique, et elles ne peuvent être utilisées à grande échelle qu'après avoir été strictement vérifiées par les fabricants de processeurs, de mémoire et OEM dans tous les aspects, et les nouveaux acteurs sont difficiles à entrer. Avec la difficulté technique croissante, le nombre de lecteurs de puces d'interface mémoire est passé de plus de 10 dans la génération DDR2 à seulement 3 dans la génération DDR4. L’industrie s’est évanouie et un modèle à trois branches s’est formé. Dans la génération DDR5, seuls trois fournisseurs dans le monde peuvent fournir des produits fabriqués en série de la première sous-génération de DDR5, à savoir Montage Technology, Renesas Electronics (IDT) et Rambus.

Laisser un commentaire

Remonter en haut