Quantos transceptores ópticos são necessários para uma GPU?

No mercado, existem diferentes versões da proporção de transceptores ópticos para o número de GPUs, e os números de várias versões não são consistentes principalmente porque a quantidade de módulos ópticos necessários em diferentes arquiteturas de rede não é a mesma. O número real de módulos ópticos usados ​​depende principalmente dos seguintes aspectos.

1) Modelos de NIC

Inclui principalmente dois tipos de placas de rede, ConnectX-6 (200 Gb / s, usado principalmente com o A100), os módulos ópticos usados ​​principalmente são MMA1T00-HS (200G Infiniband HDR QSFP56 SR4 PAM4 850nm 100m) e ConnectX-7 (400Gb/s, usado principalmente com H100).

ConnectX-6
ConnectX-7

2) Modelos de Interruptores

O modelo de switch ConnectX-8 800Gb/s de próxima geração inclui principalmente dois tipos de switches, a série QM9700 (OSFP de 32 portas (2*400Gb/s), com um total de 64 canais a uma taxa de transferência de 400Gb/s, totalizando 51.2 Taxa de transferência de Tb/s) e a série QM8700 (QSFP40 de 56 portas, com um total de 40 canais a 200 Gb/s, totalizando taxa de transferência de 16 Tb/s).

QM9700
QM8700

3) Número de unidades (unidade escalável SU)

O número de unidades afeta o nível de arquitetura de comutação, apenas a arquitetura de duas camadas é usada quando o número de unidades é pequeno e a arquitetura de três camadas é usada quando o número de unidades é grande.

H100 SuperPOD: Cada unidade consiste em 32 nós (servidores DGX H100) e suporta no máximo 4 unidades para formar um cluster com uma arquitetura de comutação de duas camadas.

A100 SuperPOD: cada unidade inclui 20 nós (servidor DGX A100), suporta no máximo 7 unidades para formar um cluster e mais de 5 unidades requerem uma arquitetura de comutação de três camadas.

Unidade escalável SU

Conclusão:

(1) Rede de três camadas A100+ConnectX6+QM8700: proporção de 1:6, todas com módulos ópticos 200G QSFP56

(2) Rede de duas camadas A100+ConnectX6+QM9700: transceptores OSFP 1:0.75 800G + módulos ópticos QSFP1 1:200 56G

(3) Rede de duas camadas H100+ConnectX7+QM9700: módulos ópticos OSFP 1:1.5 800G + módulo óptico OSFP 1:1 400G

(4) H100+ConnectX8 (ainda não lançado) + rede de três camadas QM9700: proporção 1:6, todos com OSFP 800G transceptores

Supondo que 300,000 H100 + 900,000 A100 sejam enviados em 2023, será gerado um total de 3.15 milhões de 200G QSP56 + 300,000 400G OSFP + 787,500 800G OSFP, resultando em um espaço de mercado de IA incremental de US$ 1.38 bilhão.

Supondo que 1.5 milhão de H100s + 1.5 milhão de A100s sejam enviados em 2024, um total de 750,000 200G QSFP56s + 750,000 OSFPs de 400G + 6.75 milhões de OSFPs de 800G A demanda é gerada, trazendo um espaço de mercado incremental de US$ 4.97 bilhões para IA (aproximadamente igual à soma do tamanho do mercado de módulos ópticos de passagem digital de 2021).

Abaixo está o processo de medição detalhado para cada um dos cenários acima.

Cenário 1: rede de três camadas A100+ConnectX6+QM8700.

O A100 tem um total de oito interfaces de computação, quatro à esquerda e quatro à direita na figura. Atualmente, os envios do A100 são principalmente emparelhados com o ConnectX6 para comunicação externa, com uma taxa de interface de 200 Gb/s.

A100

Na arquitetura da primeira camada, cada nó (Node) possui 8 interfaces (Port), cada nó é conectado a 8 switches leaf (Leaf) e cada 20 nodes formam uma unidade (SU), então na primeira camada um total de 8 *São necessários switches leaf SU, 8*SU*20 cabos (Cabo) e 2*8*SU*20 200G transceptores ópticos são necessários.

primeira camada

Na arquitetura da Camada 2, a taxa de uplink é igual à taxa de downlink devido à arquitetura sem bloqueio. Na Camada 1, a taxa de transmissão unidirecional total é de 200 G*número de cabos. Como a Camada 2 também adota uma taxa de transmissão de 200G de cabo único, o número de cabos na Camada 2 deve ser o mesmo da Camada 1, exigindo 8*SU*20 cabos (Cabo) e 2*8*SU*20 transceptores de 200G. O número de interruptores de cume (Spine) necessários é o número de cabos dividido pelo número de interruptores de folha, exigindo (8*SU*20)/(8*SU) interruptores de cume. Mas quando o número de interruptores de folha não é grande o suficiente, mais de duas conexões podem ser feitas entre a folha e o cume para economizar no número de interruptores de cumeeira (desde que o limite de 40 interfaces não seja excedido). Portanto, quando o número de unidades é 1/2/4/5 respectivamente, o número de comutadores de crista necessários é 4/10/20/20 e o número de módulos ópticos necessários é 320/640/1280/1600 respectivamente, o o número de ridge switches não será aumentado na mesma proporção, mas o número de transceptores será aumentado na mesma proporção.

Quando o número de unidades chega a 7, a terceira camada da arquitetura é necessária, devido à arquitetura non-blocking, portanto, o número de cabos necessários para a terceira camada da arquitetura é igual ao número da segunda camada.

Configuração recomendada da NVIDIA SuperPOD: NVIDIA recomendou 7 unidades para rede, precisa aumentar a arquitetura da Camada 3 e aumentar o switch central (Core), uma variedade de números diferentes de unidades de cada camada do número de switches, o número de cabos conectados a a figura mostrada.

SuperPOD

140 servidores, um total de 140*8=1120 A100s, um total de 56+56+28=140 switches (QM8790), 1120+1120+1120=3360 cabos, 3360*2=6720 módulos ópticos 200G QSFP56, o mapeamento entre os transceptores A100 e 200G QSFP56 é 1120/6720=1:6.

Cenário 2: Rede A100+ConnectX6+QM9700 Camada 2

No momento, esta solução não está disponível na configuração recomendada, mas no futuro, mais e mais A100s podem escolher a rede QM9700, o que reduzirá o número de transceptores ópticos usados, mas trará requisitos de módulo óptico OSFP 800G. A maior diferença é que a conexão da primeira camada é convertida de 8 conexões externas cabos 200G a uma interface QSFP para OSFP com 2 e 1 a 4.

Interface QSFP para OSFP 1 a 4

Na primeira camada: para um cluster de 7 unidades, 140 servidores têm 140 * 8 = 1120 interfaces, com um total de 1120/4 = 280 cabos 1-tow-4 conectados externamente, resultando em 280 800G OSFP e 1120 200G OSFP56 óptico requisitos do módulo. Um total de 12 switches QM9700 são necessários.

Na Camada 2: com apenas conexões 800G, são necessários 280*2=560 transceptores OSFP 800G, exigindo 9 switches QM9700.

Portanto, 140 servidores e 1120 A100s requerem 12+9=21 switches, 560+280=840 módulos ópticos OSFP 800G e transceptores ópticos 1120 200G QSFP56.

O mapeamento entre o módulo óptico A100 e 800G OSFP é 1120:840 = 1:0.75, e o mapeamento entre o módulo óptico A100 e 200G QSFP56 é 1:1

Cenário 3: Rede H100+ConnectX7+QM9700 Camada 2

O ponto especial do design do H100 é que, embora a placa de rede seja oito Gpus com oito placas de rede 400G, a interface é mesclada em quatro interfaces 800G, o que trará um grande número de requisitos de módulo óptico OSFP 800G.

H100+ConnectX7+QM9700 Camada 2 rede

Na camada 1, de acordo com a configuração recomendada pela NVIDIA, é recomendável conectar um módulo óptico [2*400G] 800G OSFP à interface do servidor: MMA4Z00-NS (OSFP de porta dupla 800Gb/s 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF) ou MMS4X00-NM (OSFP de porta dupla 800Gb/s 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 MMF), via porta dupla . ), dois cabos de fibra óptica (MPOs) são conectados via porta dupla e conectados a cada um dos dois switches.

camada 1

Portanto, para a primeira camada, uma unidade contém 32 servidores, um servidor é conectado a 2*4=8 switches e o SuperPOD inclui 4 unidades, o que requer um total de 4*8=32 switches leaf a serem conectados na primeira camada.

A NVIDIA sugere que seja necessário reservar um nó para fins de gerenciamento (UFM), devido ao impacto limitado no uso de transceptores ópticos, apenas seguimos as 4 unidades de 128 servidores de acordo com o cálculo abreviado.

Na primeira camada, um total de 4*128 = 512 módulos ópticos OSFP 800G e 2*4*128 = módulos ópticos OSFP 1024 400G: MMA4Z00-NS400 (400G OSFP SR4 PAM4 850nm 30m em OM3/50m em OM4 MTP/MPO -12) ou NVIDIA MMS4X00-NS400 (400G OSFP DR4 PAM4 1310nm MTP/MPO-12 500m).

camada 2

Na Camada 2, os switches são conectados diretamente uns aos outros com módulos ópticos de 800G, e um switch de folha é conectado para baixo a uma taxa unidirecional de 32*400G. A fim de garantir que as taxas de upstream e downstream sejam as mesmas, a conexão ascendente requer uma taxa unidirecional de 16 * 800G, exigindo 16 comutadores de crista, um total de 4 * 8 * 16 * 2 = 1024 transceptores ópticos de 800 G.

32 nó

Portanto, sob esta arquitetura, as duas camadas precisam de um total de 512+1024=1536 módulos ópticos OSFP 800G e 1024xOSFP 400G transceptores ópticos, um total de 4*32*8=1024 H100. Portanto, o mapeamento entre a GPU e o módulo óptico 800G OSFP é 1024/1536 → 1:1.5, e o mapeamento entre a GPU e o módulo óptico 400G OSFP é 1024/1024 → 1:1.

Cenário 4: H100+ConnectX8 (ainda não lançado) + rede QM9700 Layer 3

Este cenário ainda não foi lançado, mas vamos supor que após o H100 também ser atualizado para uma NIC 800G, as interfaces externas devem ser atualizadas de 4 interfaces OSFP para 8 interfaces OSFP. A conexão entre cada camada é conectada com 800G, e toda a arquitetura de rede é semelhante ao primeiro cenário, apenas o módulo óptico 200G é substituído pelo módulo óptico 800G. Portanto, a proporção de GPUs para módulos ópticos nessa arquitetura também é de 1:6.

Organizamos os quatro cenários acima na tabela a seguir.

os quatro cenários acima

Suponha que 300,000 H100+ 900,000 A100 serão enviados em 2023, trazendo um total de 3.15 milhões 200G+ 300,000 400G+ 787,500 800G demanda OSFP.

Suponha que 1.5 milhão de H100+ 1.5 milhão de A100 serão enviados em 2024, trazendo um total de 750,000 200G+ 750,000 400G+ 6.75 milhões 800G demanda OSFP.

A100H100

* Metade do A100 usa switches de 200G e metade usa switches de 400G.

** Metade do H100 usa switches de 400G e metade usa switches de 800G.

As estimativas acima das quantidades A100 H100 são apenas suposições e não representam expectativas futuras.

De acordo com o cálculo simples do preço médio de US$ 1/GB em 2023 e US$ 0.85/GB em 2024, espera-se que a IA traga 13.8/4.97 bilhões de dólares americanos de espaço de mercado incremental de IA para transceptores ópticos.

Deixe um comentário

Voltar ao Topo