¿Cuántos transceptores ópticos se necesitan para una GPU?

En el mercado, existen diferentes versiones de la proporción de transceptores ópticos a la cantidad de GPU, y las cifras de varias versiones no son consistentes principalmente porque la cantidad de módulos ópticos requeridos bajo diferentes arquitecturas de red no es la misma. El número real de módulos ópticos utilizados depende principalmente de los siguientes aspectos.

1) Modelos NIC

Incluye principalmente dos tipos de tarjetas de red, ConnectX-6 (200 Gb / s, utilizado principalmente con el A100) Los módulos ópticos utilizados principalmente son MMA1T00-HS (200G Infiniband HDR QSFP56 SR4 PAM4 850nm 100m) y ConnectX-7 (400Gb/s, utilizado principalmente con H100).

Conectar X-6
Conectar X-7

2) Cambiar modelos

El modelo de conmutador ConnectX-8 de 800 Gb/s de última generación incluye principalmente dos tipos de conmutadores, la serie QM9700 (OSFP de 32 puertos (2*400 Gb/s), con un total de 64 canales a una tasa de transferencia de 400 Gb/s, con una tasa de rendimiento total de 51.2 Tb/s) y la serie QM8700 (QSFP40 de 56 puertos, con un total de 40 canales a 200 Gb/s). s, con una tasa de rendimiento total de 16 Tb/s).

QM9700
QM8700

3) Número de unidades (Unidad escalable SU)

El número de unidades afecta el nivel de la arquitectura de conmutación, solo se utiliza una arquitectura de dos capas cuando el número de unidades es pequeño y una arquitectura de tres capas cuando el número de unidades es grande.

H100 SuperPOD: cada unidad consta de 32 nodos (servidores DGX H100) y admite un máximo de 4 unidades para formar un clúster con una arquitectura de conmutación de dos capas.

A100 SuperPOD: cada unidad incluye 20 nodos (servidor DGX A100), admite un máximo de 7 unidades para formar un clúster y más de 5 unidades requieren una arquitectura de conmutación de tres niveles.

Unidad escalable SU

Conclusión:

(1) Red de tres capas A100+ConnectX6+QM8700: relación 1:6, todas con módulos ópticos 200G QSFP56

(2) Red de dos capas A100+ConnectX6+QM9700: transceptores 1:0.75 800G OSFP + módulos ópticos 1:1 200G QSFP56

(3) Red de dos capas H100+ConnectX7+QM9700: módulos ópticos 1:1.5 800G OSFP + módulo óptico 1:1 400G OSFP

(4) H100+ConnectX8 (aún no lanzado) + QM9700 red de tres capas: relación 1:6, todos con 800G OSFP transceptores

Suponiendo que se envíen 300,000 100 H900,000 + 100 2023 A3.15 en 200, se generará una demanda total de 56 millones de 300,000G QSP400 + 787,500 800 1.38G OSFP + XNUMX XNUMX XNUMXG OSFP, lo que resultará en un espacio de mercado de IA incremental de $XNUMX millones.

Suponiendo que se envíen 1.5 millones de H100 + 1.5 millones de A100 en 2024, un total de 750,000 200G QSFP56Se genera una demanda de s + 750,000 OSFP de 400G + 6.75 millones de OSFP de 800G, lo que genera un espacio de mercado incremental de 4.97 millones de dólares para la IA (aproximadamente igual a la suma del tamaño del mercado de módulos ópticos de paso digital de 2021).

A continuación se muestra el proceso de medición detallado para cada uno de los escenarios anteriores.

Escenario 1: red de tres capas A100+ConnectX6+QM8700.

A100 tiene un total de ocho interfaces informáticas, cuatro a la izquierda y cuatro a la derecha en la figura. Actualmente, los envíos de A100 se combinan principalmente con ConnectX6 para comunicación externa, con una tasa de interfaz de 200 Gb/s.

A100

En la arquitectura de la primera capa, cada nodo (Nodo) tiene 8 interfaces (Puerto), cada nodo está conectado a 8 conmutadores hoja (Hoja), y cada 20 nodos forman una unidad (SU), por lo que en la primera capa se necesitan un total de 8*SU conmutadores hoja, se necesitan 8*SU*20 cables (Cable) y 2*8*SU*20 200G transceptores ópticos.

primera capa

En la arquitectura de Capa 2, la tasa de enlace ascendente es igual a la tasa de enlace descendente debido a la arquitectura sin bloqueo. En la Capa 1, la tasa de transmisión unidireccional total es de 200G*número de cables. Dado que la Capa 2 también adopta una tasa de transmisión de 200G de un solo cable, la cantidad de cables en la Capa 2 debe ser la misma que la de la Capa 1, lo que requiere 8*SU*20 cables (Cable) y 2*8*SU*20 transceptores de 200G. El número de interruptores de cumbrera (Spine) necesarios es el número de cables dividido por el número de interruptores de hoja, que requieren (8*SU*20)/(8*SU) interruptores de cumbrera. Pero cuando el número de interruptores de hoja no es lo suficientemente grande, se pueden hacer más de dos conexiones entre la hoja y la cumbrera para economizar en el número de interruptores de cumbrera (siempre que no se exceda el límite de 40 interfaces). Por lo tanto, cuando la cantidad de unidades es 1/2/4/5 respectivamente, la cantidad de conmutadores de cresta necesarios es 4/10/20/20 y la cantidad de módulos ópticos necesarios es 320/640/1280/1600 respectivamente, la cantidad de conmutadores de cresta no aumentará en la misma proporción, pero la cantidad de transceptores aumentará en la misma proporción.

Cuando el número de unidades llega a 7, se requiere la tercera capa de la arquitectura, debido a la arquitectura sin bloqueo, por lo que el número de cables necesarios para la tercera capa de la arquitectura es el mismo que el número de la segunda capa.

SuperPOD de configuración recomendada por NVIDIA: NVIDIA recomendó 7 unidades para redes, necesita aumentar la arquitectura de capa 3 y aumentar el conmutador central (Core), una variedad de números diferentes de unidades de cada capa del número de conmutadores, el número de cables conectados a la figura que se muestra.

Superpod

140 servidores, un total de 140*8=1120 A100s, un total de 56+56+28=140 conmutadores (QM8790), 1120+1120+1120=3360 cables, 3360*2=6720 módulos ópticos 200G QSFP56, la asignación entre los transceptores A100 y 200G QSFP56 es 1120/6720=1:6.

Escenario 2: A100+ConnectX6+QM9700 Red de capa 2

En la actualidad, esta solución no está disponible en la configuración recomendada, pero en el futuro, cada vez más A100 pueden elegir la red QM9700, lo que reducirá la cantidad de transceptores ópticos utilizados, pero traerá requisitos de módulos ópticos 800G OSFP. La mayor diferencia es que la conexión de la primera capa se convierte de 8 externos Cables de 200G a una interfaz QSFP a OSFP con 2 y 1 a 4.

Interfaz QSFP a OSFP 1 a 4

En la primera capa: para un clúster de 7 unidades, 140 servidores tienen 140 * 8 = 1120 interfaces, con un total de 1120/4 = 280 1-tow-4 cables conectados externamente, lo que da como resultado 280 800G OSFP y 1120 200G OSFP56 requisitos de módulos ópticos. Se requiere un total de 12 conmutadores QM9700.

En la Capa 2: con solo conexiones de 800G, se necesitan 280*2=560 transceptores OSFP de 800G, lo que requiere 9 conmutadores QM9700.

Por lo tanto, 140 servidores y 1120 A100 requieren 12+9=21 conmutadores, 560+280=840 módulos ópticos 800G OSFP y 1120 transceptores ópticos 200G QSFP56.

El mapeo entre el módulo óptico A100 y 800G OSFP es 1120:840 = 1:0.75, y el mapeo entre el módulo óptico A100 y 200G QSFP56 es 1:1

Escenario 3: H100+ConnectX7+QM9700 Red de capa 2

El punto especial del diseño H100 es que, aunque la tarjeta de red es de ocho Gpus con ocho tarjetas de red de 400G, la interfaz se fusiona en cuatro interfaces de 800G, lo que traerá una gran cantidad de requisitos de módulos ópticos OSFP de 800G.

H100+ConnectX7+QM9700 Red de capa 2

En la capa 1, según la configuración recomendada por NVIDIA, se recomienda conectar un módulo óptico OSFP [2*400G] 800G a la interfaz del servidor: MMA4Z00-NS (800 Gb/s OSFP de puerto doble 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF) o MMS4X00-NM (800Gb/s OSFP de puerto doble 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 MMF), a través de puerto doble. ), se conectan dos cables de fibra óptica (MPO) a través de un puerto doble y se enchufan en cada uno de los dos conmutadores.

capa 1

Entonces, para la primera capa, una unidad contiene 32 servidores, un servidor está conectado a 2 * 4 = 8 conmutadores y SuperPOD incluye 4 unidades, lo que requiere un total de 4 * 8 = 32 conmutadores de hoja para conectarse en la primera capa.

NVIDIA sugiere que debe reservar un nodo para fines de administración (UFM), debido al impacto limitado en el uso de transceptores ópticos, solo seguimos las 4 unidades de 128 servidores de acuerdo con el cálculo abreviado.

En la primera capa, un total de 4*128 = 512 módulos ópticos OSFP de 800G y 2*4*128 = 1024 módulos ópticos OSFP de 400G: MMA4Z00-NS400 (400G OSFP SR4 PAM4 850nm 30m en OM3/50m en OM4 MTP/MPO-12) o NVIDIA MMS4X00-NS400 (400G OSFP DR4 PAM4 1310nm MTP/MPO-12 500m).

capa 2

En la capa 2, los conmutadores están conectados directamente entre sí con módulos ópticos de 800 G y un conmutador de hoja está conectado hacia abajo a una velocidad unidireccional de 32*400 G. Para garantizar que las velocidades ascendente y descendente sean las mismas, la conexión ascendente requiere una velocidad unidireccional de 16 * 800 G, lo que requiere 16 interruptores de cresta, un total de 4 * 8 * 16 * 2 = 1024 transceptores ópticos de 800 G.

Nodo 32

Por lo tanto, bajo esta arquitectura, las dos capas necesitan un total de 512+1024=1536 módulos ópticos OSFP 800G y 1024x400G OSFP transceptores ópticos, un total de 4*32*8=1024 H100. Por lo tanto, el mapeo entre la GPU y el módulo óptico OSFP 800G es 1024/1536→ 1:1.5, y el mapeo entre la GPU y el módulo óptico OSFP 400G es 1024/1024 → 1:1.

Escenario 4: H100+ConnectX8 (aún no lanzado) + red QM9700 Layer 3

Este escenario aún no se ha publicado, pero supongamos que después de que el H100 también se actualice a una NIC 800G, las interfaces externas deben actualizarse de 4 interfaces OSFP a 8 interfaces OSFP. La conexión entre cada capa está conectada con 800G, y toda la arquitectura de la red es similar al primer escenario, solo el módulo óptico de 200G se reemplaza por un módulo óptico de 800G. Por lo tanto, la proporción de GPU a módulos ópticos en esta arquitectura también es de 1:6.

Organizamos los cuatro escenarios anteriores en la siguiente tabla.

los cuatro escenarios anteriores

Suponga que se enviarán 300,000 100 H900,000+ 100 2023 A3.15 en 200, lo que generará una demanda total de 300,000 millones 400G+ 787,500 800 XNUMXG+ XNUMX XNUMX XNUMXG OSFP.

Suponga que se enviarán 1.5 millones de H100+ 1.5 millones de A100 en 2024, lo que generará una demanda total de 750,000 200 750,000G+ 400 6.75 800G+ XNUMX millones de XNUMXG OSFP.

A100H100

* La mitad del A100 usa interruptores de 200G y la otra mitad usa interruptores de 400G.

** La mitad del H100 usa interruptores de 400G y la otra mitad usa interruptores de 800G.

Las estimaciones anteriores de las cantidades de A100 H100 son solo suposiciones y no representan expectativas futuras.

Según el cálculo simple del precio promedio de $1/GB en 2023 y $0.85/GB en 2024, se espera que la IA genere 13.8/4.97 mil millones de dólares estadounidenses de espacio de mercado incremental de IA para transceptores ópticos.

Deja un comentario

Ir al Inicio