No mercado, existem diferentes versões da proporção de transceptores ópticos para o número de GPUs, e os números de várias versões não são consistentes principalmente porque a quantidade de módulos ópticos necessários em diferentes arquiteturas de rede não é a mesma. O número real de módulos ópticos usados depende principalmente dos seguintes aspectos.
1) Modelos de NIC
Inclui principalmente dois tipos de placas de rede, ConnectX-6 (200 Gb / s, usado principalmente com o A100), os módulos ópticos usados principalmente são MMA1T00-HS (200G Infiniband HDR QSFP56 SR4 PAM4 850nm 100m) e ConnectX-7 (400Gb/s, usado principalmente com H100).
2) Modelos de Interruptores
O modelo de switch ConnectX-8 800Gb/s de próxima geração inclui principalmente dois tipos de switches, a série QM9700 (OSFP de 32 portas (2*400Gb/s), com um total de 64 canais a uma taxa de transferência de 400Gb/s, totalizando 51.2 Taxa de transferência de Tb/s) e a série QM8700 (QSFP40 de 56 portas, com um total de 40 canais a 200 Gb/s, totalizando taxa de transferência de 16 Tb/s).
3) Número de unidades (unidade escalável SU)
O número de unidades afeta o nível de arquitetura de comutação, apenas a arquitetura de duas camadas é usada quando o número de unidades é pequeno e a arquitetura de três camadas é usada quando o número de unidades é grande.
H100 SuperPOD: Cada unidade consiste em 32 nós (servidores DGX H100) e suporta no máximo 4 unidades para formar um cluster com uma arquitetura de comutação de duas camadas.
A100 SuperPOD: cada unidade inclui 20 nós (servidor DGX A100), suporta no máximo 7 unidades para formar um cluster e mais de 5 unidades requerem uma arquitetura de comutação de três camadas.
Conclusão:
(1) Rede de três camadas A100+ConnectX6+QM8700: proporção de 1:6, todas com módulos ópticos 200G QSFP56
(2) Rede de duas camadas A100+ConnectX6+QM9700: transceptores OSFP 1:0.75 800G + módulos ópticos QSFP1 1:200 56G
(3) Rede de duas camadas H100+ConnectX7+QM9700: módulos ópticos OSFP 1:1.5 800G + módulo óptico OSFP 1:1 400G
(4) H100+ConnectX8 (ainda não lançado) + rede de três camadas QM9700: proporção 1:6, todos com OSFP 800G transceptores
Supondo que 300,000 H100 + 900,000 A100 sejam enviados em 2023, será gerado um total de 3.15 milhões de 200G QSP56 + 300,000 400G OSFP + 787,500 800G OSFP, resultando em um espaço de mercado de IA incremental de US$ 1.38 bilhão.
Supondo que 1.5 milhão de H100s + 1.5 milhão de A100s sejam enviados em 2024, um total de 750,000 200G QSFP56s + 750,000 400G OSFPs + 6.75 milhões de 800G OSFPs é gerado, trazendo um espaço de mercado incremental de US$ 4.97 bilhões para IA (aproximadamente igual à soma de o tamanho do mercado de módulos ópticos de passagem digital em 2021).
Abaixo está o processo de medição detalhado para cada um dos cenários acima.
Cenário 1: rede de três camadas A100+ConnectX6+QM8700.
O A100 tem um total de oito interfaces de computação, quatro à esquerda e quatro à direita na figura. Atualmente, os envios do A100 são principalmente emparelhados com o ConnectX6 para comunicação externa, com uma taxa de interface de 200 Gb/s.
Na arquitetura da primeira camada, cada nó (Node) possui 8 interfaces (Port), cada nó é conectado a 8 switches leaf (Leaf) e cada 20 nodes formam uma unidade (SU), então na primeira camada um total de 8 *São necessários switches leaf SU, 8*SU*20 cabos (Cabo) e 2*8*SU*20 200G transceptores ópticos são necessários.
Na arquitetura da Camada 2, a taxa de uplink é igual à taxa de downlink devido à arquitetura sem bloqueio. Na Camada 1, a taxa de transmissão unidirecional total é de 200 G*número de cabos. Como a Camada 2 também adota uma taxa de transmissão de 200G de cabo único, o número de cabos na Camada 2 deve ser o mesmo da Camada 1, exigindo 8*SU*20 cabos (Cabo) e 2*8*SU*20 transceptores de 200G. O número de interruptores de cume (Spine) necessários é o número de cabos dividido pelo número de interruptores de folha, exigindo (8*SU*20)/(8*SU) interruptores de cume. Mas quando o número de interruptores de folha não é grande o suficiente, mais de duas conexões podem ser feitas entre a folha e o cume para economizar no número de interruptores de cumeeira (desde que o limite de 40 interfaces não seja excedido). Portanto, quando o número de unidades é 1/2/4/5 respectivamente, o número de comutadores de crista necessários é 4/10/20/20 e o número de módulos ópticos necessários é 320/640/1280/1600 respectivamente, o o número de ridge switches não será aumentado na mesma proporção, mas o número de transceptores será aumentado na mesma proporção.
Quando o número de unidades chega a 7, a terceira camada da arquitetura é necessária, devido à arquitetura non-blocking, portanto, o número de cabos necessários para a terceira camada da arquitetura é igual ao número da segunda camada.
Configuração recomendada da NVIDIA SuperPOD: NVIDIA recomendou 7 unidades para rede, precisa aumentar a arquitetura da Camada 3 e aumentar o switch central (Core), uma variedade de números diferentes de unidades de cada camada do número de switches, o número de cabos conectados a a figura mostrada.
140 servidores, um total de 140*8=1120 A100s, um total de 56+56+28=140 switches (QM8790), 1120+1120+1120=3360 cabos, 3360*2=6720 módulos ópticos 200G QSFP56, o mapeamento entre os transceptores A100 e 200G QSFP56 é 1120/6720=1:6.
Cenário 2: Rede A100+ConnectX6+QM9700 Camada 2
No momento, esta solução não está disponível na configuração recomendada, mas no futuro, mais e mais A100s podem escolher a rede QM9700, o que reduzirá o número de transceptores ópticos usados, mas trará requisitos de módulo óptico OSFP 800G. A maior diferença é que a conexão da primeira camada é convertida de 8 conexões externas cabos 200G a uma interface QSFP para OSFP com 2 e 1 a 4.
Na primeira camada: para um cluster de 7 unidades, 140 servidores têm 140 * 8 = 1120 interfaces, com um total de 1120/4 = 280 cabos 1-tow-4 conectados externamente, resultando em 280 800G OSFP e 1120 200G OSFP56 óptico requisitos do módulo. Um total de 12 switches QM9700 são necessários.
Na Camada 2: com apenas conexões 800G, são necessários 280*2=560 transceptores OSFP 800G, exigindo 9 switches QM9700.
Portanto, 140 servidores e 1120 A100s requerem 12+9=21 switches, 560+280=840 módulos ópticos OSFP 800G e transceptores ópticos 1120 200G QSFP56.
O mapeamento entre o módulo óptico A100 e 800G OSFP é 1120:840 = 1:0.75, e o mapeamento entre o módulo óptico A100 e 200G QSFP56 é 1:1
Cenário 3: Rede H100+ConnectX7+QM9700 Camada 2
O ponto especial do design do H100 é que, embora a placa de rede seja oito Gpus com oito placas de rede 400G, a interface é mesclada em quatro interfaces 800G, o que trará um grande número de requisitos de módulo óptico OSFP 800G.
Na camada 1, de acordo com a configuração recomendada pela NVIDIA, é recomendável conectar um módulo óptico [2*400G] 800G OSFP à interface do servidor: MMA4Z00-NS (OSFP de porta dupla 800Gb/s 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF) ou MMS4X00-NM (OSFP de porta dupla 800Gb/s 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 MMF), via porta dupla . ), dois cabos de fibra óptica (MPOs) são conectados via porta dupla e conectados a cada um dos dois switches.
Portanto, para a primeira camada, uma unidade contém 32 servidores, um servidor é conectado a 2*4=8 switches e o SuperPOD inclui 4 unidades, o que requer um total de 4*8=32 switches leaf a serem conectados na primeira camada.
A NVIDIA sugere que seja necessário reservar um nó para fins de gerenciamento (UFM), devido ao impacto limitado no uso de transceptores ópticos, apenas seguimos as 4 unidades de 128 servidores de acordo com o cálculo abreviado.
Na primeira camada, um total de 4*128 = 512 módulos ópticos OSFP 800G e 2*4*128 = módulos ópticos OSFP 1024 400G: MMA4Z00-NS400 (400G OSFP SR4 PAM4 850nm 30m em OM3/50m em OM4 MTP/MPO -12) ou NVIDIA MMS4X00-NS400 (400G OSFP DR4 PAM4 1310nm MTP/MPO-12 500m).
Na Camada 2, os switches são conectados diretamente uns aos outros com módulos ópticos de 800G, e um switch de folha é conectado para baixo a uma taxa unidirecional de 32*400G. A fim de garantir que as taxas de upstream e downstream sejam as mesmas, a conexão ascendente requer uma taxa unidirecional de 16 * 800G, exigindo 16 comutadores de crista, um total de 4 * 8 * 16 * 2 = 1024 transceptores ópticos de 800 G.
Portanto, sob esta arquitetura, as duas camadas precisam de um total de 512+1024=1536 módulos ópticos OSFP 800G e transceptores ópticos OSFP 1024 400G, um total de 4*32*8=1024 H100. Portanto, o mapeamento entre a GPU e o módulo óptico 800G OSFP é 1024/1536→ 1:1.5, e o mapeamento entre a GPU e o módulo óptico 400G OSFP é 1024/1024 → 1:1.
Cenário 4: H100+ConnectX8 (ainda não lançado) + rede QM9700 Layer 3
Este cenário ainda não foi lançado, mas vamos supor que após o H100 também ser atualizado para uma NIC 800G, as interfaces externas devem ser atualizadas de 4 interfaces OSFP para 8 interfaces OSFP. A conexão entre cada camada é conectada com 800G, e toda a arquitetura de rede é semelhante ao primeiro cenário, apenas o módulo óptico 200G é substituído pelo módulo óptico 800G. Portanto, a proporção de GPUs para módulos ópticos nessa arquitetura também é de 1:6.
Organizamos os quatro cenários acima na tabela a seguir.
Suponha que 300,000 H100+ 900,000 A100 serão enviados em 2023, trazendo um total de 3.15 milhões 200G+ 300,000 400G+ 787,500 800G demanda OSFP.
Suponha que 1.5 milhão de H100+ 1.5 milhão de A100 serão enviados em 2024, trazendo um total de 750,000 200G+ 750,000 400G+ 6.75 milhões 800G demanda OSFP.
* Metade do A100 usa switches de 200G e metade usa switches de 400G.
** Metade do H100 usa switches de 400G e metade usa switches de 800G.
As estimativas acima das quantidades A100 H100 são apenas suposições e não representam expectativas futuras.
De acordo com o cálculo simples do preço médio de US$ 1/GB em 2023 e US$ 0.85/GB em 2024, espera-se que a IA traga 13.8/4.97 bilhões de dólares americanos de espaço de mercado incremental de IA para transceptores ópticos.
Produtos relacionados:
-
Mellanox MMA1T00-HS Compatível 200G Infiniband HDR QSFP56 SR4 PAM4 850nm 100m MTP/MPO OM3 FEC Módulo transceptor óptico Mellanox $450.00
-
Compatível com NVIDIA MMA4Z00-NS 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo $2000.00
-
Compatível com NVIDIA MMS4X00-NM 800Gb/s Porta dupla OSFP 2x400G PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo $4500.00
-
Compatível com NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850nm 30m em OM3/50m em OM4 MTP/MPO-12 Multimode FEC Optical Transceiver Module $1500.00
-
Compatível com NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo transceptor óptico $4000.00
-
QSFP56-200G-SR4M 200G QSFP56 SR4 PAM4 850nm 100m MTP / MPO OM3 FEC Módulo transceptor óptico $400.00
-
QSFP56-200G-FR4S 200G QSFP56 FR4 PAM4 CWDM4 2km LC SMF FEC Módulo transceptor óptico $650.00
-
OSFP-400G-SR4-FLT 400G OSFP SR4 Flat Top PAM4 850nm 30m em OM3/50m em OM4 MTP/MPO-12 Módulo transceptor óptico FEC multimodo $1500.00
-
Módulo transceptor óptico OSFP-400G-LR4 400G LR4 OSFP PAM4 CWDM4 LC 10 km SMF $1199.00
-
Módulo Transceptor Óptico OSFP-400G-DR4+ 400G OSFP DR4+ 1310nm MPO-12 2km SMF $879.00
-
OSFP-2x200G-FR4 2x 200G OSFP FR4 PAM4 2x CWDM4 CS 2km SMF FEC Módulo Transceptor Óptico $3000.00
-
OSFP-400G-DR4 400G OSFP DR4 PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo Transceptor Óptico $700.00
-
OSFP-400G-SR8 400G SR8 OSFP PAM4 850nm MTP/MPO-16 100m OM3 MMF FEC Módulo Transceptor Óptico $500.00
-
OSFP-800G-FR8L OSFP 800G FR8 PAM4 CWDM8 Duplex LC 2km SMF Módulo Transceptor Óptico $8000.00
-
OSFP-800G-FR8 OSFP 8x100G FR PAM4 1310nm MPO-16 Módulo Transceptor Óptico SMF de 2km $5129.00
-
OSFP-800G-LR8 OSFP 8x100G LR PAM4 1310nm MPO-16 Módulo Transceptor Óptico SMF de 10km $6119.00
-
OSFP-800G-DR8 OSFP 8x100G DR PAM4 1310nm MPO-16 500m SMF DDM Módulo Transceptor Óptico $4500.00
-
QSFP-DD-800G-FR8L QSFP-DD 800G FR8 PAM4 CWDM8 2km DOM Duplex LC SMF Módulo Transceptor Óptico $8000.00