La solución NDR 400G/800G de NVIDIA

Como tecnología emergente, la inteligencia artificial ha experimentado un rápido desarrollo en los últimos años. Entre ellos, una serie de tecnologías de IA como ChatGPT han comenzado a cambiar gradualmente la producción y los estilos de vida. La optimización continua de los algoritmos de aprendizaje profundo y la expansión de los conjuntos de datos de entrenamiento también han llevado a aumentar los recursos informáticos necesarios para entrenar modelos de lenguaje grandes, incluidas CPU, GPU y DPU, que deben conectarse a servidores para el entrenamiento de modelos a través de redes. Por lo tanto, el ancho de banda y la latencia de la red tienen un impacto directo en la velocidad y la eficiencia del entrenamiento. Para abordar este problema, NVIDIA ha lanzado la plataforma Quantum-2 InfiniBand, que proporciona un potente rendimiento de red y funciones integrales para ayudar a los desarrolladores e investigadores de IA a superar las dificultades.

Basado en su comprensión de las tendencias de desarrollo de redes de alta velocidad y su rica experiencia en la implementación de proyectos de redes de alto rendimiento, NVIDIA ha presentado la solución de red NDR (Next Data Rate), que se basa en la plataforma Quantum-2 InfiniBand. La solución NDR de NVIDIA consta principalmente de conmutadores Quantum-2 InfiniBand 800G (2 interfaces NDR de 400 G), adaptadores de host ConnectX-7 InfiniBand y conectores ópticos LinkX InfiniBand, destinados a proporcionar un rendimiento de red superfuerte de baja latencia y alto ancho de banda para campos críticos como como computación de alto rendimiento, centros de datos en la nube a gran escala e inteligencia artificial.

Los casos de uso incluyen:

1. Conecte dos conmutadores a una velocidad de 800 Gb/s o conéctelos a dos conmutadores a una velocidad de 400 Gb/s cada uno.

Para conectar dos conmutadores basados ​​en OSFP, puede utilizar dos transceptores OSFP de dos puertos (MMA4Z00-NS) y dos cables rectos de fibra multimodo (MFP7E10-Nxxx) hasta una distancia de 50 metros. Esto le permitirá alcanzar una velocidad de 800G (2x400G). Como alternativa, puede enrutar los dos cables de fibra a dos conmutadores diferentes para crear dos enlaces separados de 400 Gb/s. Los puertos OSFP de puerto doble adicionales se pueden usar para conectarse a más conmutadores si es necesario.

cambiar a cambiar

2. Conéctese a dos combinaciones de ConnectX-7 BlueField-3 con una velocidad de 400G cada una.

Mediante el uso de un transceptor OSFP de dos puertos con dos cables de fibra rectos, puede conectar hasta dos combinaciones de adaptador y/o DPU mediante ConnectX-7 o BlueField-3. Cada cable tiene cuatro canales y puede vincularse a un transceptor 400G en OSFP (MMA4Z00-NS400) o factor de forma QSFP112 (MMA1Z00-NS400) para distancias de hasta 50 metros. Los factores de forma OSFP de puerto único y QSFP112 tienen la misma electrónica, óptica y conectores ópticos y consumen 8 vatios de potencia.

Tenga en cuenta que solo los ConnectX-7/OSFP admiten el factor de forma OSFP de puerto único, mientras que el factor de forma QSFP112 se utiliza en las DPU ConnectX-7/QSFP112 y/o BlueField-3/QSFP112. Puede usar cualquier combinación de ConnectX-7 y BlueField-3 usando OSFP o QSFP112 en el mismo transceptor OSFP de dos puertos simultáneamente.

cambiar a 2

3. Conéctese a cuatro combinaciones de ConnectX-7 y/o BlueField-3 con una velocidad de 200G cada una.

Si desea cambiar hasta cuatro combinaciones de adaptador y/o DPU usando ConnectX-7 o BlueField-3, puede usar un transceptor OSFP de puerto doble con dos cables divisores de fibra 1:2. Cada uno de los dos cables divisores de fibra 4:1 de 2 canales (MFP7E20-N0xx) se puede conectar a un transceptor 400G de hasta 50 metros en OSFP (MMA4Z00-NS400) o QSFP112 (MMA1Z00-NS400) factor de forma. Los mismos componentes electrónicos, ópticos y conectores ópticos se utilizan para los factores de forma OSFP y QSFP112 de puerto único. Cuando conecta los extremos del canal de dos fibras, solo se activan dos carriles en el transceptor 400G, creando un dispositivo 200G. Esto también reduce automáticamente el consumo de energía de los transceptores 400G de 8 vatios a 5.5 vatios, mientras que el consumo de energía OSFP del puerto doble permanece en 15 vatios.

Tenga en cuenta que solo los ConnectX-7/OSFP son compatibles con el factor de forma OSFP de puerto único, mientras que el factor de forma QSFP112 se utiliza en las DPU ConnectX-7/QSFP112 y/o BlueField-3/QSFP112. Puede usar cualquier combinación de tipos ConnectX-7 y BlueField-3 en el mismo transceptor OSFP de puerto doble.

cambiar a 4

4. Vincule el conmutador al chasis de la CPU DGX H100 "Viking" en el complejo Cedar-7.

El sistema DGX-H100 está equipado con ocho GPU Hopper H100 ubicadas en el chasis superior, junto con dos CPU, almacenamiento y InfiniBand o redes Ethernet en la sección inferior del servidor. Para facilitar la comunicación de GPU a GPU, se utilizan las tarjetas Cedar-7 que contienen ocho circuitos integrados ConnectX-400 de 7 Gb/s montados en dos placas intermedias. Estas tarjetas están conectadas internamente a cuatro jaulas OSFP de puerto doble 800G con disipadores de calor internos para propósitos de enfriamiento.

Los conmutadores que admiten 400G IB/EN requieren transceptores 2x400G con aletas superiores debido a las entradas de flujo de aire reducido. Los enlaces Cedar-7-to-Switch pueden usar óptica monomodo o multimodo o cables de cobre activos (ACC) para conectividad InfiniBand o Ethernet.

El transceptor Twin-port 2x400G proporciona dos enlaces 400G ConnectX-7 desde el DGX al conmutador Quantum-2 o Spectrum-4, lo que reduce la complejidad y la cantidad de transceptores necesarios en comparación con el DGX A100. DGX-H100 también admite hasta cuatro unidades de procesamiento de datos (DPU) ConnectX-7 y/o dos BlueField-3 en InfiniBand y/o Ethernet para redes tradicionales para almacenamiento, clústeres y administración.

Las ranuras para tarjetas PCIe ubicadas a ambos lados de las jaulas de GPU OSFP pueden acomodar cables y/o transceptores separados para facilitar redes adicionales usando 400G o 200G con dispositivos OSFP o QSFP112.

cambiar a dgx

InfiniBand Cuántico-2 Switch

Los conmutadores QM9700 y QM9790 de NVIDIA Quantum-2 son los principales conmutadores IB (InfiniBand) en el campo de la inteligencia artificial moderna y la informática de alto rendimiento. A través de la innovación tecnológica y los servicios de prueba de confiabilidad, NVIDIA Networks brinda a los usuarios excelentes servicios de aceleración de red.

InfiniBand Quantum-2

Estos dos conmutadores utilizan un diseño de chasis estándar de 1U, con un total de 32 interfaces físicas de 800 G y admiten 64 puertos NDR 400 Gb/s InfiniBand (que se pueden dividir en hasta 128 puertos de 200 Gb/s). Admiten la tecnología NVIDIA SHARP de tercera generación, el control de congestión avanzado, el enrutamiento adaptable y la tecnología de red de recuperación automática. En comparación con los productos HDR de la generación anterior, NDR proporciona el doble de velocidad de puerto, el triple de densidad de puerto de switch, cinco veces la capacidad del sistema de switch y 32 veces la capacidad de aceleración de IA del switch.

interruptor ndr

Los conmutadores QM9700 y QM9790 son productos para soluciones InfiniBand montadas en rack, que incluyen conmutadores enfriados por aire y enfriados por líquido, así como conmutadores administrados y no administrados. Cada conmutador puede admitir un ancho de banda agregado bidireccional de 51.2 Tb/s y tiene una asombrosa capacidad de rendimiento de más de 66.5 1 millones de paquetes por segundo (BPPS). Esto es aproximadamente cinco veces la capacidad de conmutación de la generación anterior Quantum-XNUMX.

en red

Los conmutadores QM9700 y QM9790 tienen una gran flexibilidad y pueden admitir varias topologías de red, como Fat Tree, DragonFly+ y Torus multidimensional. También admiten compatibilidad con versiones anteriores de productos de generaciones anteriores y tienen un amplio soporte de sistema de software.

Quantum-2 ConectaX-7 NIC inteligente

NVIDIA proporciona tarjetas de red inteligentes NDR o NDR200 NVIDIA ConnectX 7 de puerto único o doble como una solución Quantum-2. Usando la tecnología NVIDIA Mellanox Socket Direct, esta tarjeta de red logra 32 canales de PCIe Gen4. Diseñado con tecnología de 7 nanómetros, ConnectX-7 contiene 8 mil millones de transistores y tiene una velocidad de transferencia de datos que es el doble de la del chip de red de computación de alto rendimiento líder, NVIDIA ConnectX-6. También duplica el rendimiento de RDMA, GPUDirect Storage, GPUDirect RDMA y computación en red.

El NDR HCA incluye múltiples núcleos de cómputo programables que pueden descargar algoritmos de datos de preprocesamiento y rutas de control de aplicaciones desde la CPU o GPU a la red, lo que proporciona un mayor rendimiento, escalabilidad y superposición entre las tareas de cómputo y comunicación. Esta tarjeta de red inteligente cumple con los requisitos más exigentes de las empresas tradicionales y las cargas de trabajo globales en inteligencia artificial, computación científica y centros de datos en la nube a gran escala.

NIC inteligente Quantum-2 ConnectX-7

Conector óptico LinkX InfiniBand

fibramall offOfrece soluciones flexibles de conectividad óptica InfiniBand de 400 Gb/s, que incluyen transceptores monomodo y multimodo, puentes de fibra MPO, cables de cobre activos (ACC) y cables de cobre pasivos (DAC), para satisfacer las necesidades de diversas topologías de red.

La solución incluye transceptores de dos puertos con conectores OSFP que cuentan con aletas diseñadas para conmutadores de configuración fija enfriados por aire, mientras que aquellos con conectores OSFP planos son adecuados para conmutadores modulares enfriados por líquido y HCA.

Para la interconexión de conmutadores, se puede utilizar un nuevo módulo óptico 2xNDR (800 Gbps) empaquetado con OSFP para interconectar dos conmutadores QM97XX. El diseño de aletas mejora significativamente la disipación de calor de los módulos ópticos.

Para la interconexión entre conmutadores y HCA, el extremo del conmutador utiliza un módulo óptico 2xNDR (800 Gbps) empaquetado con OSFP con aletas, mientras que el extremo de la NIC utiliza un módulo plano Módulo óptico OSFP 400Gbps. Los puentes de fibra MPO pueden proporcionar de 3 a 150 metros, y una fibra divisoria de uno a dos puede proporcionar de 3 a 50 metros.

transceptor óptico

La conexión entre el conmutador y HCA proporciona una solución mediante DAC (hasta 1.5 metros) o ACC (hasta 3 metros). Se puede usar un cable de conexión de uno a dos para conectar un puerto OSFP del conmutador (equipado con dos puertos InfiniBand de 400 Gb/s) a dos HCA independientes de 400 Gb/s. Se puede usar un cable de conexión de uno a cuatro para conectar un puerto de conmutador OSFP del conmutador a cuatro HCA de 200 Gb/s.

conexión entre el interruptor y HCA

Ventajas

La plataforma NVIDIA Quantum-2 InfiniBand es una solución de red de alto rendimiento capaz de alcanzar velocidades de transmisión de 400 Gb/s por puerto. Al implementar la tecnología NVIDIA Port Splitting, logra el doble de velocidad en la densidad de puertos, tres veces la densidad de puertos del conmutador y cinco veces la capacidad del sistema del conmutador. Cuando se utiliza la topología Dragonfly+, una red basada en Quantum-2 puede lograr una conectividad de 400 Gb/s para más de un millón de nodos en tres saltos, mientras reduce el consumo de energía, la latencia y los requisitos espaciales.

En términos de rendimiento, NVIDIA ha introducido la tecnología SHARP de tercera generación (SHARPv3), que crea una escalabilidad casi infinita para la agregación de grandes datos a través de una red escalable que admite hasta 64 flujos paralelos. Las capacidades de aceleración de IA han aumentado 32 veces en comparación con el producto HDR anterior.

En términos de costos de usuario, el uso de dispositivos NDR puede reducir la complejidad de la red y mejorar la eficiencia. Al actualizar la tarifa más tarde, solo se deben reemplazar los cables y las tarjetas de red. Las redes NDR requieren menos dispositivos que los que admiten la misma red, lo que las hace más rentables para los presupuestos generales y las inversiones futuras. En comparación con el HDR anterior, los dispositivos NDR pueden reducir costos y mejorar la eficiencia.

Deja un comentario

Ir al Inicio