Arquitectura de producto del centro de datos de IA 800G/400G

La IA impulsa el auge del mercado de módulos ópticos 400G/800G

El 30 de noviembre de 2022, OpenAI, una empresa estadounidense de investigación de inteligencia artificial (IA), lanzó ChatGPT, un modelo de chatbot que atrajo a más de un millón de usuarios en cinco días y a más de 100 millones de usuarios en dos meses, convirtiéndose en el de más rápido crecimiento. aplicación de consumo en la historia. El 28 de abril de 2023, OpenAI completó una financiación de 10.3 millones de dólares, con una valoración posterior a la inversión de 27 millones a 29 millones de dólares, convirtiéndose en el unicornio de más rápido crecimiento del mundo.

Con el desarrollo de la tecnología de IA, los grandes modelos, los grandes datos y la gran potencia informática se están convirtiendo cada vez más en las principales limitaciones para las aplicaciones AIGC. Los grandes modelos y conjuntos de datos son la base del software para el desarrollo de AIGC, mientras que la potencia informática es la infraestructura más importante. La IA se basa principalmente en computación paralela y el procesador central es principalmente GPU. Pero además del rendimiento de la GPU, el factor de comunicación también se convertirá en un cuello de botella para la supercomputación. Mientras haya congestión de la red en un enlace, se producirá latencia de datos. Por lo tanto, el servidor de IA para los requisitos de latencia y velocidad de transmisión de datos subyacentes es muy exigente, con la necesidad de módulos ópticos de alta velocidad que coincidan, por lo que el servidor de IA tiene una gran demanda de módulos ópticos de 800G.

Para resolver el cuello de botella del ancho de banda de la red de IA, es necesario cambiar la arquitectura de la red del centro de datos.

arquitectura de red del centro de datos

A medida que el entrenamiento de modelos grandes de IA se aplica gradualmente en varios campos, las redes tradicionales adecuadas para HPC ya no pueden cumplir con los requisitos de ancho de banda y latencia del entrenamiento de clústeres de modelos grandes. El entrenamiento distribuido de modelos grandes requiere comunicación entre GPU, lo que aumenta el tráfico de este a oeste en los centros de datos de AI/ML, y el patrón de tráfico es diferente del de la computación en la nube tradicional. Los datos de IA son de corto plazo y de gran volumen, lo que provoca latencia de la red y una velocidad de entrenamiento reducida en la arquitectura de red tradicional de computación en la nube. En la topología de red de árbol tradicional, el ancho de banda converge capa por capa y el ancho de banda de la red en la raíz del árbol es mucho menor que la suma de todos los anchos de banda en cada hoja. El árbol gordo se parece más a un árbol real: cuanto más cerca de la raíz, más gruesas son las ramas, es decir, desde la hoja hasta la raíz, el ancho de banda de la red no converge, lo que puede mejorar la eficiencia de la red y acelerar el entrenamiento. Esta es la base de la arquitectura de árbol gordo para admitir redes sin bloqueo. Debido a que no hay convergencia, se necesitan más puertos ópticos para garantizar la coherencia de las velocidades de enlace ascendente y descendente, lo que aumenta la cantidad de módulos ópticos.

Cuando el chip del interruptor se actualiza a una interfaz eléctrica de 112G, abrirá las aplicaciones del módulo 400G/800G correspondientes. Debido a las grandes diferencias en la arquitectura topológica de los diferentes centros de datos de IA, se estima que la demanda de módulos ópticos impulsados ​​por IA se basa en una situación típica. Cuando la aplicación tipo GPT alcance los mil millones de usuarios activos mensuales, se estima que se necesitarán 1 A69.4. Suponiendo que un A100 corresponde a tres demandas de módulos ópticos, corresponde a aproximadamente 100 millones de demandas de módulos ópticos de 2G. En aplicaciones reales, desde el extremo del conmutador hasta el extremo del servidor, muchas veces 800G se dividen en dos y la capa inferior es 800G. Actualizando a 800G inevitablemente impulsará la demanda de 400G.

Desde la perspectiva del mercado de módulos ópticos de América del Norte, los próximos años se dividirán básicamente en dos partes: una parte es la demanda tradicional de los centros de datos y la otra parte es la nueva demanda debido al aumento de la IA. Se espera que la nueva demanda de IA supere la demanda de los centros de datos tradicionales entre 2024 y 2025.

Desde la perspectiva del mercado nacional de módulos ópticos, 200GLa implementación de /400G seguirá siendo el pilar y durará un período de tiempo. En la actualidad, la demanda interna de 400G y 800G no ha aumentado rápidamente. Por un lado, la demanda de centros de datos tradicionales es relativamente plana, por lo que la tasa de crecimiento no es particularmente obvia; por otro lado, la demanda en el campo de las telecomunicaciones sigue siendo una tendencia de desarrollo lento y no hay altibajos. Por lo tanto, el crecimiento de 400G y 800G en 2024 provendrá de un aumento de la demanda impulsado por la supercomputación, y el CPO y los módulos enchufables coexistirán durante mucho tiempo en el futuro.

embarque portuario

Fuente: Dell'oro 2022.10

envío

Fuente: lightcounting 2022.5

Evolución de la actualización de la tarifa de Internet del centro de datos

Las rutas evolutivas están divididas y coexisten una variedad de opciones. Los usuarios pueden elegir según los requisitos comerciales, la arquitectura de red y el tiempo de implementación.

evolución
Tarifa Internet Centro de Datos

Aplicaciones típicas para productos 400G/800G

400G/800G DAC/ACC

Caso 1: Conexión del conmutador Quantum-2 Infiniband o del conmutador Quantum-2 IB conectado al DGX-H100

Conexión del conmutador Quantum-2 IB o conexión del conmutador Quantum-2 IB al DGX-H100

Caso 2: Conmutador Quantum-2 Infiniband a aplicación de sucursal

Caso 2: Aplicación de cambio a sucursal Quantum-2 IB

Transceptor óptico 400G SR4/800G SR8

Caso 3: Conmutador Quantum-2 Infiniband a 2 NIC ConnectX-7 400G

Caso 3: Conmutador Quantum-2 IB a 2 NIC ConnectX-7 400G

El módulo transceptor óptico OSFP SR800 de 8G está diseñado para enlaces InfiniBand NDR de 400G a través de fibra multimodo utilizando una longitud de onda de 850 nm. El módulo dispone de dos puertos de modulación óptica 4G-PAM100 de 4 canales, cada uno de los cuales utiliza un conector MTP/MPO-12. En el siguiente vídeo, verá cómo conectarlo a otro dispositivo mediante cables de fibra multiconector y cómo configurar el protocolo del conmutador basado en InfiniBand o Ethernet. También conocerá las características y beneficios clave del módulo 800G OSFP SR8, como su gran ancho de banda, bajo consumo de energía y capacidad de conexión en caliente.

Lanzamiento del nuevo producto FiberMall 400G/800G

Lanzamiento de FiberMall 800G QSFP-DD SR8, Transceptores ópticos y cables AOC 800G OSFP SR8, 400G QSFP112 SR4 y 400G OSFP-RHS SR4. La línea de productos incluye láseres VCSEL de 112 Gbps de alto rendimiento y DSP de 7 nm, con una interfaz de host eléctrica de señales PAM112 de 4 Gbps por canal y soporte para CMIS 4.0.

Diagrama de ojo y métricas de sensibilidad.

TDECQ inferior a 3 dB por canal; La sensibilidad de OMA RXsen alcanza los -5.2 dBm a 2.4E-4 Pre-FEC 53.125 GBd.

Diagrama de ojo y métricas de sensibilidad.

Distancia de transmisión

400G OSFP SR4 admite 30 metros (OM3 MMF) y 50 metros (OM4 MMF).

800G OSFP SR8 admite 60 metros (OM3 MMF) y 100 metros (OM4 MMF).

Tipo de viaje

Los módulos ópticos 400G/800G admiten QSFP-DD y OSFP.

Diseño de consumo de energía

El consumo de energía del módulo óptico/AOC de 800G es inferior a 14 W en la prueba de tres temperaturas, y el consumo de energía del módulo óptico/AOC de 400G es inferior a 8 W.

La cartera completa de productos de esta serie es la siguiente:

Línea de productos multimodo 800G (8×112G)

  • 800G OSFP SR8 (Doble MPO12/APC o MPO16/APC)
  • 800G QSFP-DD AOC
  • 800G QSFP-DD SR8 (MPO16/APC)

Líneas de productos multimodo 400G (4×112G)

El primer cable de cobre activo de 800G de FiberMall, ACC OSFP de 800G, que alimenta centros de datos de alta velocidad y aplicaciones de alta computación con IA.

FiberMall's 800G OSFP DAC/ACC cumple con las especificaciones OSFP MSA e IEEE802.3ck y utiliza 16 pares de cables de cobre para admitir transmisión bidireccional de 8 canales a 112 GB/s y lograr compatibilidad con velocidades anteriores. En comparación con el soporte máximo de 800G OSFP DAC de 2 m, la distancia de transmisión ACC admite de 4 ma 5 m y puede satisfacer las necesidades generales de cableado de interconexión de corta distancia. Las características del producto son las siguientes:

ACC OSFP 800G

Excelente rendimiento SI y buena consistencia a 44GHZ.

Excelente rendimiento SI y buena consistencia a 44GHZ.
  • En el probador de red 800G y encienda KP4-FEC, la prueba cumple con los requisitos de capacitación de enlace y negociación automática de IEEE, BER post-FEC <1E-15 y el margen FEC es mejor que 27 %, y la relación de pérdida de trama FEC es 0 para Todo el proceso.
  • El producto adopta una solución Re-Driver, con un consumo de energía típico de aproximadamente 2.5 W y un retraso de menos de 20 ns. La ecualización y el equilibrio de la relación señal-ruido son cruciales y son mucho mejores que la solución Re-Timer en términos de consumo de energía y retardo.
  • Al adoptar un proceso de producción innovador, la confiabilidad es favorable, 800G OSFP ACC 26AWG 4m solo pesa alrededor de 600 g.

FiberMall ha lanzado una variedad de módulos transceptores ópticos/DAC/ACC/AOC/400G/800G, ¡no dude en consultarnos!

Deja un comentario

Ir al Inicio