Análisis NVIDIA GB200: arquitectura de interconexión y evolución futura

Análisis de la arquitectura de interconexión GB200

NVIDIA tiene mucha confusión en el cálculo del ancho de banda de transmisión NVLink y los conceptos de SubLink/Port/Lane. Normalmente, el ancho de banda NVLink de un único chip B200 es de 1.8 TB/s. Esto generalmente se calcula utilizando el algoritmo de ancho de banda de la memoria, siendo la unidad bytes por segundo (B/s). Sin embargo, en los conmutadores NVLink o IB/Ethernet y tarjetas de red, la perspectiva es de Mellanox, quien calcula el ancho de banda de la red en bits por segundo (b/s). Expliquemos en detalle el método de cálculo de NVLink. A partir de NVLink 3.0, cuatro pares diferenciales forman un “subenlace” (NVIDIA suele utilizar los términos Puerto/Enlace, con una definición algo vaga). Estos 4 pares de líneas de señal diferencial contienen señales de dirección de recepción y transmisión. Al calcular el ancho de banda de la red, una interfaz de 400 Gbps generalmente se refiere a la capacidad de transmitir y recibir 400 Gbps de datos simultáneamente.

Interfaz de 400 Gbps

Está compuesto por un total de 4 pares de líneas de señal diferencial, con 2 pares cada una para RX y TX. Desde la perspectiva de la red, es un enlace unidireccional de 400 Gbps, mientras que desde la perspectiva del ancho de banda de la memoria, admite un ancho de banda de acceso a la memoria de 100 GB/s.

Ancho de banda de interconexión NVLINK 5.0

La generación Blackwell utiliza Serdes 224G, con una velocidad de transmisión de subenlace de 200 Gbps * 4 (4 pares diferenciales) / 8 = 100 GB/s y un ancho de banda de red unidireccional de 400 Gbps. El B200 tiene 18 subenlaces, lo que da como resultado un ancho de banda de 100 GB/s * 18 = 1.8 TB/s, lo que equivale a 9 interfaces unidireccionales de 400 Gbps desde una perspectiva de red. De manera similar, la introducción de NVSwitch menciona que los SerDes duales de 200 Gb/seg constituyen un 400 Gbp.

deporte.

chip de interruptor nvlink

Para mayor claridad, definimos los siguientes términos:

HBM

El ancho de banda NVLINK del B200 es de 1.8 TB/s, compuesto por 18 puertos, cada uno de 100 GB/s, compuestos por cuatro pares diferenciales, y cada puerto contiene dos Serdes de 224 Gbps (2x224G PAM4 equivale a 400Gbps ancho de banda unidireccional por puerto).

Interconexión NVLINK 4.0

Con respecto a Hopper, NVLINK 4.0 utiliza Serdes 112G, con una única línea de señal diferencial capaz de 100 Gbps, lo que da como resultado un único subenlace NVLINK acumulativo de 4x100 Gbps = 50 GB/s. Los productos Hopper que admiten NVLINK 4.0 tienen 18 subenlaces (puertos), por lo que un solo H100 admite 50 GB/s * 18 = 900 GB/s. Un solo sistema con 8 tarjetas puede utilizar 4 NVSwitches para conectividad, como se muestra en la imagen.

DGX H100

También es posible agregar un conmutador de segundo nivel para crear un grupo de 256 tarjetas.

ampliar con la red nvlink

La interfaz de expansión utiliza módulos ópticos OSFP, que pueden admitir 16 líneas de señal diferencial, lo que permite que un solo OSFP admita 4 puertos NVLINK.

un único OSFP para admitir 4 puertos NVLINK
configuración de pines del módulo osfp

El conmutador NVLink de la imagen contiene 32 conectores de módulo óptico OSFP, que admiten un total de 32 * 4 = 128 NVLINK de 4 puertos.

128nvlink 4 puertos

GB200 NVL72

El sistema GB200 NVL72 tiene las siguientes especificaciones, centrándose principalmente en la interconexión NVLINK:

Interconexión NVLINK

Cada GB200 contiene una CPU Grace ARM de 72 núcleos y dos GPU Blackwell.

Cada GB200 contiene una CPU Grace ARM de 72 núcleos y dos GPU Blackwell.

Todo el sistema está compuesto por Compute Trays y Switch Trays. Cada Compute Tray contiene dos subsistemas GB200, con un total de 4 GPU Blackwell.

GB200 NVL72

Cada bandeja de conmutador contiene dos chips de conmutador NVLINK, lo que proporciona un total de 72 * 2 = 144 puertos NVLINK. Se muestra la estructura interna de un único chip de conmutador, con 36 puertos en la parte superior e inferior, que proporcionan 7.2 TB/s de ancho de banda. Utilizando cálculos de red, esto equivale a 28.8 Tbps de capacidad de conmutación, un poco menos que el chip de conmutación líder actual de 51.2 Tbps, pero esto se debe a la implementación de la funcionalidad SHARP (NVLS).

Funcionalidad AFILADA (NVLS)

Todo el bastidor admite 18 bandejas de cómputo y 9 bandejas de conmutadores, formando la arquitectura NVL72 con 72 chips Blackwell completamente interconectados.

Todo el bastidor admite 18 bandejas de computación y 9 bandejas de conmutadores.

Cada subsistema GB200 tiene 2 * 18 = 36 puertos NVLink5. La interconexión externa del sistema no utiliza módulos ópticos OSFP, sino una conexión directa de placa posterior de cobre, como se muestra en el diagrama.

subsistema GB200
La interconexión externa del sistema.

La topología general de interconexión NVL72 es la siguiente:

topología general de interconexión NVL72

Cada B200 tiene 18 puertos NVLINK y hay 18 chips de conmutador NVLINK en las 9 bandejas de conmutador. Por lo tanto, los puertos de cada B200 se conectan a un chip NVSwitch, lo que da como resultado un total de 72 puertos por NVSwitch, que es como el sistema NVL72 conecta completamente los 72 chips B200.

NVL576

Notamos que en el gabinete NVL72, todos los conmutadores ya no tienen interfaces adicionales para formar un grupo de conmutadores de dos niveles más grande. Desde el offEn las imágenes oficiales de NVIDIA, 16 gabinetes están dispuestos en dos filas, y aunque el total es exactamente 72 * 8 = 576 tarjetas en un clúster refrigerado por líquido, los cables de conexión entre las tarjetas parecen ser más a través de la interconexión de red Scale-Out RDMA, en lugar de la interconexión de red Scale-Up NVLINK.

Bastidores informáticos GB200 NVL72

Para un grupo de 32,000 tarjetas, también es a través de gabinetes NVL72, una fila de 9 gabinetes, 4 NVL72 y 5 gabinetes de red, dos filas de 18 gabinetes que forman un Sub-Pod y se conectan a través de la red RDMA Scale-Out.

centro de datos completo con 32000 GPU

Por supuesto, este no es el llamado NVL576. Si se requiere NVL576, cada 72 GB200 debe configurarse con 18 NVSwitches, que no caben en un solo gabinete. Notamos que el official ha mencionado que existe una versión de un solo gabinete de NVL72, así como una versión de dos gabinetes, y en la versión de dos gabinetes, cada Compute Tray solo tiene un subsistema GB200.

NVIDIA GB200 NVL36

Por otro lado, notamos que hay conectores de cable de cobre de repuesto en el NVSwitch, que probablemente estén personalizados para diferentes conexiones de placa posterior de cobre.

diferentes conexiones de placa posterior de cobre

Se desconoce si estas interfaces tendrán jaulas OSFP adicionales sobre el backplane de interconexión de cobre para la interconexión NVSwitch de segundo nivel, pero este método tiene una ventaja: la versión de gabinete único no es escalable, mientras que la versión de gabinete doble es escalable, como se muestra en la imagen.

interconexión NVSwitch de segundo nivel

La versión de gabinete doble tiene 18 bandejas NVSwitch, que se pueden interconectar espalda con espalda para formar NVL72. Aunque la cantidad de conmutadores se ha duplicado, cada conmutador proporciona 36 puertos de enlace ascendente para una futura expansión al clúster de 576 tarjetas. Un solo gabinete tiene un total de 36*2*9 = 648 puertos de enlace ascendente, y se requieren 16 gabinetes para formar NVL576, lo que da como resultado un total de 648*16 = 10,368 puertos de enlace ascendente, que se pueden construir con 9 planos de conmutación de segundo nivel. , cada uno con 36 subplanos, formados por 18 Switch Trays. La estructura de interconexión de NVL576 se muestra a continuación.

La estructura de interconexión de NVL576

Examinando NVL576 desde una perspectiva empresarial

Soy escéptico sobre si realmente hay clientes para una red NVLink Scale-Up única y masiva como NVL576. Incluso AWS solo ha optado por offer el NVL72 en sus servicios en la nube. Los principales problemas son los desafíos de confiabilidad y escalabilidad de una arquitectura de red de dos niveles, lo que hace que NVL576 no sea una solución ideal debido a la alta complejidad del sistema.

Por otro lado, al considerar los requisitos informáticos de los modelos grandes de próxima generación, el meta documento “¿Cómo construir redes de bajo costo para modelos de lenguaje grandes (sin sacrificar el rendimiento)?” discute esto. El documento se refiere a la red Scale-Up basada en NVLink como un "dominio de alto ancho de banda (HBD)" y analiza la cantidad óptima de tarjetas dentro del HBD:

Dominio de alto ancho de banda (HBD)

Para un modelo GPT-1T, las ganancias de rendimiento siguen siendo bastante significativas cuando K>36 en comparación con K=8, pero los beneficios marginales de escalar de K>72 a K=576 no justifican la mayor complejidad del sistema. Además, a medida que crece el tamaño de la red NVLINK escalable, los beneficios de rendimiento del ancho de banda RDMA entre HBD comienzan a disminuir. El equilibrio final es utilizar NVL72 combinado con RDMA Scale-Out para construir un grupo de 32,000 tarjetas.

El tamaño de la red NVLINK escalable crece

Evolución de los sistemas de interconexión: la historia de Cisco

Arquitectura distribuida debido al cuello de botella de computación/memoria

Al principio, los enrutadores de Cisco utilizaban un único procesador PowerPC para realizar el reenvío. A medida que Internet explotó, el cuello de botella en el rendimiento fue causado por operaciones que consumen mucha memoria, como las búsquedas en tablas de enrutamiento. Esto llevó a la aparición gradual de enfoques como la conmutación de procesos/CEF, que conectaban varios procesadores a través de un bus de datos:

Arquitectura distribuida

Estos métodos son similares a los primeros NVLINK 1.0/NVLINK 2.0, donde los chips se interconectaban directamente a través de un bus, como la generación Pascal.

cualquiera a cualquiera

El surgimiento de la estructura Switch

En 1995, Nick Mckeown propuso utilizar una estructura de conmutador CrossBar para admitir enrutadores Gigabit de mayor escala en su artículo “Fast Switched Backplane for a Gigabit Switched Router”, que más tarde se convirtió en los enrutadores de gama alta de la serie 12000 de Cisco.

tarjeta de línea

Las estructuras de conmutación de estos sistemas son conceptualmente idénticas a las NVSwitch y NVSwitch Tray actuales que construyen sistemas NVL8~NVL72. Se trata de interconectar múltiples chips para construir un sistema a mayor escala cuando un solo chip choca contra la pared de la memoria.

Bandeja NVSwitch

El diseño de chasis único de Cisco 12000, con Switch Fabric en el medio y 9 bandejas de switch, es similar al GB200, donde la parte superior e inferior tienen 8 ranuras para tarjetas de línea cada una, correspondientes a las bandejas de cómputo en GB200.

La tecnología central aquí es el diseño VOQ (Virtual Output Queueing) y el algoritmo de programación iSLIP. Cuando el modelo ejecuta All-to-All, varios B200 pueden escribir en el mismo B200 simultáneamente, lo que provoca un bloqueo de cabecera de línea (HOLB). Los humanos agregan inteligentemente buffers antes y después de las intersecciones, que son la cola de entrada y la cola de salida:

Cola de entrada y cola de salida

Desafortunadamente, la cola de salida puede maximizar la utilización del ancho de banda pero requiere una velocidad N*R, mientras que la cola de entrada puede procesar a velocidad R pero sufre de HOLB. El rendimiento máximo de un conmutador IQ limitado por HOLB se calcula en 58.6%.

Una solución simple al problema IQ HOLB es utilizar la cola de salida virtual (VOQ), donde cada puerto de entrada tiene una cola para cada salida, eliminando HOLB mientras se mantiene el almacenamiento en búfer de velocidad R.

Cola de salida virtual

Por supuesto, NVLINK de NVIDIA utiliza un diseño basado en créditos, y el arbitraje de distribución de créditos es un área que vale la pena investigar en profundidad para las nuevas empresas de GPU nacionales.

Arquitectura de múltiples etapas y evolución de las interconexiones ópticas

El NVL576 es similar al Carrier Routing System (CRS-1) de Cisco introducido en 2003.

Sistema de enrutamiento del operador

En ese momento, Cisco construyó un sistema de red de conmutación de múltiples etapas para hacer frente a la enorme demanda de ancho de banda durante la burbuja de Internet.

sistema de red de conmutación de múltiples etapas

La red de conmutación de 3 etapas dentro de un solo gabinete, construida con bandejas de conmutación, es equivalente al actual GB200 NVL72 no escalable. La estructura de varios armarios corresponde entonces a NVL576. En aquel entonces, Cisco podía expandirse de un solo gabinete con 16 tarjetas de línea a un sistema con 8 gabinetes Fabric + 72 gabinetes de tarjetas de línea, construyendo un clúster de 1152 tarjetas de línea a gran escala. Las conexiones internas de Cisco también utilizan interconexiones ópticas.

un grupo de tarjetas de línea 1152 a gran escala

Los conectores ópticos entre chasis se muestran en la imagen.

conectores ópticos entre chasis

Vale la pena señalar que durante este tiempo, Bill Dally, ahora científico jefe de NVIDIA, fundó Avici y utilizó interconexiones 3D-Torus para construir enrutadores a escala de Terabit.

Enrutadores a escala de terabits

La interconexión 3D-Torus recuerda a la TPU de Google. Más tarde, Huawei hizo el OEM del sistema Avici y lo calificó como NE5000, antes de desarrollar su producto de enrutador principal NE5000E. Al mismo tiempo, la aparición de Juniper también ejerció una presión significativa sobre Cisco en el dominio de los enrutadores centrales. Quizás el dominio de NVIDIA también enfrente más desafíos en el futuro.

Por otro lado, los interruptores ópticos basados ​​en MEMS también se introdujeron en esa época, lo que parece tener algunas similitudes con el uso actual de interruptores ópticos por parte de Google.

Conmutadores ópticos basados ​​en MEMS

La evolución futura de NVIDIA

En la conferencia HOTI de 2023 sobre sistemas de interconexión, Bill Dally pronunció un discurso de apertura titulado “Clústeres de aceleradores, la nueva supercomputadora”, en el que analizó tres temas principales desde la perspectiva de las redes en chip y los sistemas de interconexión:

Topología:

  • CLOS/3D-Toro/Libélula
  • Enrutamiento:
  • Control de flujo

Las diferentes conexiones de dispositivos tienen diferentes anchos de banda y consumo de energía.

La nueva supercomputadora

El desafío es cómo combinarlos orgánicamente, considerando factores como la potencia, el costo, la densidad y la distancia de conexión.

El desafío es cómo combinarlos orgánicamente.

Interconexiones ópticas

A través de estas mediciones dimensionales, Co-Package Optic DWDM se convierte en una opción viable:

Paquete conjunto óptico DWDM

El diagrama de concepto del sistema para construir interconexiones ópticas es el siguiente:

concepto de sistema

El objetivo final es construir un sistema de interconexión óptica a gran escala.

bastidor de GPU

En este aspecto, verá que es casi idéntico al sistema CRS-1 de múltiples chasis que construyó Cisco, donde el GPU Rack es equivalente al Cisco LineCard Chassis y el Switch Rack es equivalente al Fabric Chassis de Cisco. Ambos utilizan interconexiones ópticas y tecnología DWDM para reducir la complejidad de la conexión y aumentar el ancho de banda.

Chasis Cisco LineCard

A nivel de arquitectura de chip, se utiliza un Motor Óptico como chiplet para la interconexión.

GPU fotónica conectada

Para la estructura de interconexión, existe una mayor inclinación hacia la adopción de la topología Dragonfly y la utilización de conmutadores ópticos OCS.

libélula

En cuanto a los algoritmos de control de flujo y control de congestión, Bill analizó mecanismos similares a HOMA/NDP y Adaptive Routing. No es necesario ser tan complejo, ya que tenemos mejores algoritmos MultiPath CC que no requieren ninguna característica nueva del conmutador.

Algoritmos e integración de hardware especial

Por otro lado, Transformer existe desde hace 7 años y es un algoritmo excelente que equilibra los operadores vinculados a la computación y a la memoria. Sin embargo, ¿existe un algoritmo aún más sofisticado en la industria?

Se están investigando modelos de atención dispersa como Monarch Mixer y modelos que no requieren atención como Mamba/RMKV, así como algoritmos basados ​​en teoría de categorías, geometría algebraica y topología algebraica. También hay diferentes formatos numéricos como FP4/FP6 compatibles con Blackwell y potencialmente Log8 en el futuro.

Históricamente, Cisco también se basó en algoritmos y hardware especial para mejorar gradualmente el rendimiento de un solo chip y superar la complejidad de las estructuras de interconexión. Usaron algoritmos como TreeBitMap para búsquedas de tablas de enrutamiento a gran escala en DRAM normal.

árbolBitMap

Con el desarrollo de redes multinúcleo y en chip, construyeron procesadores de red SPP/QFP/QFA de alto rendimiento, y estas tecnologías han resurgido en los procesadores AWS Nitro, NVIDIA BlueField e Intel IPU DPU.

Conclusión

FibeMall analizó la arquitectura de interconexión de la GPU Blackwell más reciente y exploró la construcción del sistema distribuido y la arquitectura de interconexión que Cisco y NVIDIA enfrentaron cuando el rendimiento de un solo chip no pudo seguir el ritmo de la demanda explosiva durante dos oleadas tecnológicas, como se analizó en el “Momento Cisco de NVIDIA”. También analizó el discurso de apertura de HOTI 2023 de Bill Dally, brindando una visión clara del camino de desarrollo futuro de NVIDIA.

Sin embargo, también observamos que durante el pico de la burbuja de Internet, empresas como Juniper y Avici surgieron como rivales de Cisco, y NVIDIA también derrotó a 3Dfx como rival en esa era antes de dominar el mercado profesional. Cada época tiene sus oportunidades, y los ganadores no son simplemente aquellos que acumulan más recursos, sino aquellos que innovan mediante la combinación de algoritmos y potencia informática con hardware.

Desde la perspectiva del retador, la dificultad del núcleo informático en sí, aparte del ecosistema CUDA, no es tan grande. Recientemente, Jim Keller y algunos jugadores de HBM en Corea del Sur y Japón han estado activos, y vale la pena observar si BUDA+RISC-V+HBM se convertirá en una nueva fuerza emergente.

nueva tendencia hacia la computación desagregada

Desde la perspectiva de reemplazar los sistemas de interconexión IB/NVLINK, Ethernet ya tiene chips de conmutación de 51.2 Tbps, y hace tres años ya se diseñaron en NetDAM protocolos de comunicación basados ​​en conexiones Ethernet de alta velocidad a HBM, que soportan computación en red como SHARP.

Deja un comentario

Ir al Inicio