AI 컴퓨팅 센터에서의 듀얼 플레인 및 멀티 플레인 네트워킹

이전 글에서는 스케일아웃과 스케일업의 차이점을 살펴보았습니다. 스케일업은 단일 노드 내의 GPU/NPU 카드 수를 늘려 개별 노드의 성능을 향상시키는 수직적 확장을 의미합니다. 반면 스케일아웃은 노드를 추가하여 전체 네트워크 규모를 확장하는 수평적 확장으로, 단일 노드로는 처리할 수 없는 대규모 모델 학습 작업을 지원할 수 있게 합니다. 이번 글에서는 스케일아웃 네트워킹 아키텍처와 AI 컴퓨팅 센터에서의 개발 동향에 대해 자세히 살펴보겠습니다.

AI 컴퓨팅 센터 네트워킹을 위한 일반적인 아키텍처

AI 컴퓨팅 센터 네트워킹은 CLOS, Dragonfly, Slim Fly, Torus 등 다양한 형태로 존재합니다. 또한, Rail-only, Rail-optimized, MPFT, ZCube 등 여러 변형 네트워킹 모드가 개발되었습니다. 이 중 Fat-Tree CLOS 아키텍처는 효율적인 라우팅 설계, 뛰어난 확장성, 손쉬운 관리 덕분에 대규모 모델 학습 시나리오에서 널리 사용됩니다. 일반적으로 CLOS는 Spine-Leaf 2계층 구조를 사용하며, 2계층 구조로 확장이 어려울 경우 Super-Spine 계층을 추가하여 확장할 수 있습니다.

2계층 CLOS 아키텍처

2계층 CLOS 아키텍처

3계층 CLOS 아키텍처

3계층 CLOS 아키텍처

철도 전용 건축2023년 MIT에서 제안한 철도 전용 네트워크 아키텍처는 HB 도메인과 철도 스위치를 유지하면서 스파인 스위치를 제거하여 네트워크 비용과 전력 소비를 크게 줄입니다.

철도 전용 건축

예를 들어, 51.2T 스위치를 사용하면 단 8개의 스위치(128개의 400G 포트)만으로 1,000개의 카드를 지원하는 교육용 클러스터를 구성할 수 있습니다.

레일 최적화 팻 트리 아키텍처(ROFT)아래 그림에서 보는 바와 같이, 다중 레일 네트워크 아키텍처에서 AI 학습 통신 요구 사항은 여러 레일을 통한 병렬 전송을 통해 가속화될 수 있습니다. 대부분의 트래픽은 동일 레일 내에서 집계되어 전송되며(단일 레벨 스위칭만 통과), 소량의 트래픽만 레일 간 전송(두 개 이상의 레벨 필요)을 통해 전송되므로 네트워크 통신 부하를 완화할 수 있습니다.

레일 최적화 팻 트리 아키텍처

듀얼 플레인 네트워크 아키텍처

2024년, 알리바바 클라우드는 HPN-7.0에 적용된 듀얼 포트 듀얼 플레인 네트워킹 아키텍처를 제안했습니다. 이 아키텍처의 주요 목표는 성능 향상, 안정성 강화, 그리고 해시 편향 방지입니다. 이 멀티 레일 듀얼 플레인 설계는 ROFT 아키텍처를 기반으로 각 NIC의 400G 포트를 두 개의 2x200G 포트로 분할하여 서로 다른 두 개의 리프(ToR) 스위치에 연결하는 방식입니다. 리프 스위치의 다운링크 400G 포트는 각각 다른 NIC 포트에 연결되는 두 개의 200G 링크로 분할됩니다.

HPN 이중 평면 설계

HPN 이중 평면 설계는 다음과 같은 주요 장점을 제공합니다.

  • 해시 편향 제거기존 네트워크에서는 대규모 모델 학습으로 인한 낮은 엔트로피와 버스트성 트래픽이 해시 편향을 쉽게 유발하여 트래픽 분배가 불균형해질 수 있습니다. 듀얼 플레인 설계는 ToR 스위치를 두 개의 독립적인 그룹으로 나누어 업링크 링크로 진입하는 트래픽의 경로를 고정함으로써 집계 계층에서 해시 편향을 방지하고 트래픽을 고르게 분배하여 큐 길이를 크게 줄이고 네트워크 성능을 향상시킵니다.
  • 확장성 및 비용 관리 기능 향상2계층 네트워크는 15,000개 이상의 GPU를 수용할 수 있어 기존 3계층 CLOS 아키텍처에 비해 계층 수가 하나 줄어들어 구축 비용이 절감됩니다.
  • 신뢰성 및 내결함성 향상각 GPU는 두 개의 독립적인 ToR 스위치에 업링크로 연결되어 단일 장애 지점을 제거합니다. 장애 발생 시 전역 컨트롤러의 개입 없이 로컬 ECMP 그룹만 업데이트하면 되므로 복구 효율이 향상됩니다. 이러한 기능은 네트워크 장애 허용 범위를 강화하고 대규모 모델 학습의 안정성을 보장합니다.

다중 평면 네트워크 아키텍처

2025년 5월, DeepSeek 팀은 다음과 같은 제목의 논문을 발표했습니다. DeepSeek-V3에 대한 통찰: 확장성 문제 및 AI 아키텍처용 하드웨어에 대한 고찰본 논문에서는 다중 평면 네트워킹 개념을 소개합니다. LLM(대규모 언어 모델) 파라미터 규모가 기하급수적으로 증가함에 따라, 기존의 3계층 Fat-Tree CLOS 토폴로지는 비용, 확장성 및 견고성 측면에서 점점 더 한계를 드러내고 있습니다.

DeepSeek-V3는 기존의 3계층 Fat-Tree 아키텍처를 대체하기 위해 InfiniBand 기반의 멀티플레인 Fat-Tree(MPFT) 네트워크를 채택했습니다. 이 구성에서 각 노드는 8개의 GPU와 8개의 400Gbps IB NIC를 갖추고 있으며, 각 GPU는 서로 다른 "네트워크 플레인"에 속하는 독립적인 IB NIC에 대응됩니다. 노드당 8개의 GPU는 8개의 서로 다른 플레인(즉, 8개의 2계층 Fat-Tree 플레인)에 연결됩니다. 64개의 400G IB 스위치를 사용하면 2계층 Fat-Tree는 최대 16,384개의 GPU를 지원할 수 있습니다(1개의 플레인은 32개의 스파인 스위치와 64개의 리프 스위치로 구성되어 64 x 32개의 GPU를 수용할 수 있으며, 8개의 플레인을 사용하면 총 16,384개의 GPU를 지원합니다). 플레인 간 트래픽 교환에는 노드 내 포워딩이 필요합니다.

노드 내 포워딩

이 멀티플레인 네트워킹 모드는 듀얼플레인 네트워킹과 유사한 장점을 제공하지만, 핵심적인 차이점은 각 GPU가 독립적인 플레인에 대한 단일 업링크를 가지며, 카드당 듀얼 업링크 장애 허용 기능이 없다는 점입니다.

  • 비용 절감: 3계층 Fat-Tree와 비교했을 때, MPFT는 네트워크 비용을 최대 40%까지 절감할 수 있습니다.
  • 더 높은 확장 성이론적으로 최대 16,384개의 GPU를 지원합니다.
  • 교통 격리각 항공기는 독립적으로 운항하여 항공기 간 혼잡을 방지합니다.

본 논문에서는 여러 네트워킹 모드(FT2: 2계층 팻트리, MPFT: 다중 평면 팻트리, FT3: 3계층 팻트리, SF: 슬림 플라이, DF: 드래곤플라이)를 비교합니다.

네트워킹 모드 비교표

보시는 바와 같이 MPFT는 노드당 비용, 확장성 및 기타 측면에서 분명한 이점을 보여줍니다.

하지만 위에서 설명한 MPFT는 최적의 구현 방식이 아닙니다. 보다 이상적인 멀티플레인 네트워킹 모드는 아래 그림과 같습니다.

이상적인 다중 평면 배치도

각 NIC에는 여러 개의 물리적 포트(여기서는 4개의 200G 인터페이스)가 있으며, 각 포트는 독립적인 네트워크 평면에 연결됩니다(알리바바 클라우드의 HPN 7.0 듀얼 플레인 모드와 유사하지만 NIC당 인터페이스가 2개가 아닌 4개임). 단일 QP(큐 페어)는 패킷 송수신을 위해 사용 가능한 모든 포트를 활용할 수 있습니다.

이 다중 평면 배치의 일부를 확대하여 자세히 살펴보겠습니다.

다중 평면 설정의 상세 확대 이미지

102.4T 스위치를 예로 들면, 128개의 800G 포트 또는 셔플(Shuffle)을 통해 512개의 200G 포트를 제공할 수 있습니다(셔플에 대한 자세한 내용은 향후 주제에서 다룰 예정입니다. 스위치는 내장 셔플 기능을 통해 512개의 200G 링크를 직접 제공하거나, 광섬유 링크 할당 및 매핑을 위해 외부 셔플 박스 또는 브레이크아웃 셔플을 사용할 수 있습니다). 각 GPU는 4개의 200G 포트를 통해 4개의 서로 다른 플레인에 연결되며, 하나의 QP에 의해 구동되어 포트 간 패킷 단위 로드 밸런싱 라우팅이 이루어집니다. 이 모드는 특히 MoE 전체 트래픽에 적합합니다.

상세 네트워크 구성도:

상세한 다중 평면 네트워킹 다이어그램

2계층 4평면 구성에서는 16,384개의 GPU를 수용할 수 있습니다(참고: 각 NIC는 4개의 200G 포트에 연결되므로 스위치 수가 증가하여 1,024개의 스파인 스위치와 2,048개의 리프 스위치가 필요하며, 이는 단일 포트 MPFT에 필요한 768개의 스위치보다 4배 더 많습니다).

2층 4면 구성

또한 이러한 기능을 구현하기 위해 NIC에 새로운 요구 사항이 추가됩니다. 즉, 다중 평면 통신을 지원하고 여러 평면에 걸쳐 QP 패킷의 로드 밸런싱을 달성해야 합니다. 서로 다른 평면을 통해 패킷이 순서대로 도착하지 않을 수 있으므로 NIC는 기본적으로 순서가 뒤바뀐 패킷 처리를 지원해야 합니다.

NVIDIA의 최신 CX-8은 이미 4개의 네트워크 평면(4-Plane)을 지원하여 하드웨어 수준의 순서가 뒤바뀐 패킷 처리를 통해 데이터 일관성을 보장하면서 단일 QP에서 다중 경로 패킷 스프레이를 가능하게 합니다.

요약하자면, AI 컴퓨팅 센터의 스케일아웃 네트워킹 확장과 관련하여 가까운 미래의 추세는 3계층 네트워킹에서 2계층 네트워킹으로의 전환, 2계층 구조로 1만~10만 개의 카드 클러스터 구현, 그리고 멀티포트 멀티플레인 네트워킹 도입 등이 될 가능성이 높습니다.

이 종합적인 개요에서는 듀얼 플레인 및 멀티 플레인 네트워킹 아키텍처가 AI 데이터 센터 네트워크, GPU 클러스터링 및 대규모 AI 학습을 위한 고성능 컴퓨팅 최적화에 있어 얼마나 중요한 역할을 하는지 강조합니다. 이러한 혁신은 차세대 지능형 컴퓨팅 센터의 확장성, 비용 효율성 및 신뢰성과 관련된 주요 과제를 해결합니다.

위쪽으로 스크롤