Сколько оптических приемопередатчиков необходимо для графического процессора?

На рынке существуют разные версии соотношения количества оптических приемопередатчиков к количеству графических процессоров, и цифры разных версий не совпадают, главным образом потому, что количество оптических модулей, необходимых для разных сетевых архитектур, неодинаково. Фактическое количество используемых оптических модулей в основном зависит от следующих аспектов.

1) Модели сетевых карт

В основном включает в себя два типа сетевых карт, ConnectX-6 (200 Гбит / с, в основном используется с A100), в основном используются оптические модули. ММА1Т00-HS (200G Infiniband HDR QSFP56 SR4 PAM4 850 нм 100 м) и ConnectX-7 (400 Гбит/с, в основном используется с H100).

КоннектX-6
КоннектX-7

2) Переключение моделей

Модель коммутатора следующего поколения ConnectX-8 800 Гбит/с в основном включает в себя два типа коммутаторов: серию QM9700 (32-портовый OSFP (2*400 Гбит/с), всего 64 канала со скоростью передачи 400 Гбит/с, общая пропускная способность 51.2 Тбит/с) и серию QM8700 (40-портовый QSFP56, всего 40 каналов со скоростью 200 Гбит/с). с, общая пропускная способность 16 ТБ/с).

QM9700
QM8700

3) Количество единиц (масштабируемая единица SU)

Количество блоков влияет на уровень архитектуры коммутации, при небольшом количестве блоков используется только двухуровневая архитектура, а при большом количестве блоков используется трехуровневая архитектура.

H100 SuperPOD: каждое устройство состоит из 32 узлов (серверов DGX H100) и поддерживает до 4 устройств для формирования кластера с двухуровневой архитектурой коммутации.

A100 SuperPOD: каждое устройство включает 20 узлов (сервер DGX A100), поддерживает до 7 устройств для формирования кластера, а более 5 устройств требуют трехуровневой архитектуры коммутации.

Масштабируемая единица SU

Вывод:

(1) Трехуровневая сеть A100+ConnectX6+QM8700: соотношение 1:6, все с оптическими модулями 200G QSFP56

(2) Двухуровневая сеть A100+ConnectX6+QM9700: 1:0.75 трансиверов 800G OSFP + 1:1 200G QSFP56 оптических модулей

(3) Двухуровневая сеть H100+ConnectX7+QM9700: оптические модули OSFP 1:1.5 800G + оптические модули OSFP 1:1 400G

(4) H100+ConnectX8 (еще не выпущен) + трехуровневая сеть QM9700: соотношение 1:6, все с 800G ОСФП трансиверы

Если предположить, что 300,000 100 H900,000 + 100 2023 A3.15 будут отгружены в 200 году, в общей сложности будет сформирован спрос на 56 млн 300,000G QSP400 + 787,500 800 1.38G OSFP + XNUMX XNUMX XNUMXG OSFP, что приведет к увеличению рыночного пространства ИИ на XNUMX млрд долларов.

Если предположить, что в 1.5 году будет поставлено 100 миллиона H1.5 + 100 миллиона A2024, то всего будет 750,000 XNUMX. 200G QSFP56s + 750,000 400 6.75G OSFP + 800 миллиона 4.97G OSFP генерируется спрос, в результате чего дополнительная рыночная площадь для искусственного интеллекта составит 2021 миллиарда долларов (примерно равна сумме объема рынка цифровых сквозных оптических модулей в XNUMX году).

Ниже подробно описан процесс измерения для каждого из описанных выше сценариев.

Сценарий 1: трехуровневая сеть A100+ConnectX6+QM8700.

A100 имеет в общей сложности восемь вычислительных интерфейсов, четыре слева и четыре справа на рисунке. В настоящее время поставки A100 в основном сопряжены с ConnectX6 для внешней связи со скоростью интерфейса 200 Гбит/с.

A100

В архитектуре первого уровня каждый узел (узел) имеет 8 интерфейсов (порт), каждый узел подключен к 8 листовым коммутаторам (листьям), и каждые 20 узлов образуют блок (SU), поэтому на первом уровне всего требуется 8*SU листовых коммутаторов, 8*SU*20 кабелей (кабелей) и 2*8*SU*20 оптических приемопередатчиков 200G.

первый слой

В архитектуре уровня 2 скорость восходящей линии связи равна скорости нисходящей линии связи из-за неблокирующей архитектуры. На уровне 1 общая скорость однонаправленной передачи составляет 200G*количество кабелей. Поскольку уровень 2 также использует скорость передачи 200G по одному кабелю, количество кабелей на уровне 2 должно быть таким же, как и на уровне 1, требуя 8*SU*20 кабелей (кабель) и 2*8*SU*20 приемопередатчиков 200G. Требуемое количество коньковых коммутаторов (Spine) — это количество кабелей, деленное на количество концевых коммутаторов, требующих (8*SU*20)/(8*SU) коньковых коммутаторов. Но когда количество листовых коммутаторов недостаточно велико, между листом и хребтом можно сделать более двух соединений, чтобы сэкономить на количестве хребтовых коммутаторов (пока не превышено ограничение в 40 интерфейсов). Таким образом, когда количество блоков составляет 1/2/4/5 соответственно, количество требуемых гребневых коммутаторов составляет 4/10/20/20, а количество необходимых оптических модулей составляет 320/640/1280/1600 соответственно, количество гребневых коммутаторов не будет увеличиваться в той же пропорции, но количество приемопередатчиков будет увеличиваться в той же пропорции.

Когда количество модулей достигает 7, требуется третий уровень архитектуры из-за неблокирующей архитектуры, поэтому количество кабелей, необходимых для третьего уровня архитектуры, совпадает с количеством кабелей второго уровня.

Рекомендуемая NVIDIA конфигурация SuperPOD: NVIDIA рекомендует 7 единиц для работы в сети, необходимо увеличить архитектуру уровня 3 и увеличить основной коммутатор (ядро), различные количества единиц каждого уровня количества коммутаторов, количество подключенных кабелей, как показано на рисунке.

Суперпод

140 серверов, всего 140*8=1120 A100, всего 56+56+28=140 коммутаторов (QM8790), 1120+1120+1120=3360 кабелей, 3360*2=6720 оптических модулей 200G QSFP56. 100/200=56:1120.

Сценарий 2: Сеть уровня 100 A6+ConnectX9700+QM2

В настоящее время это решение недоступно в рекомендуемой конфигурации, но в будущем все больше и больше A100 могут выбрать сеть QM9700, что уменьшит количество используемых оптических приемопередатчиков, но приведет к требованиям к оптическим модулям 800G OSFP. Самая большая разница в том, что соединение первого уровня преобразуется из 8 внешних кабели 200G к интерфейсу QSFP-OSFP с 2 и с 1 по 4.

Интерфейс QSFP-OSFP с 1 по 4

На первом уровне: для кластера из 7 единиц 140 серверов имеют 140 * 8 = 1120 интерфейсов, всего 1120/4 = 280 кабелей 1-tow-4, подключенных снаружи, в результате чего требуется 280 оптических модулей 800G OSFP и 1120 200G OSFP56. Всего требуется 12 коммутаторов QM9700.

На уровне 2: только с подключениями 800G требуется 280*2=560 приемопередатчиков OSFP 800G, что требует 9 коммутаторов QM9700.

Следовательно, для 140 серверов и 1120 серверов A100 требуется 12+9=21 коммутатор, 560+280=840 оптических модулей 800G OSFP и 1120 оптических трансиверов 200G QSFP56.

Сопоставление между оптическим модулем A100 и 800G OSFP составляет 1120:840 = 1:0.75, а сопоставление между оптическим модулем A100 и 200G QSFP56 составляет 1:1.

Сценарий 3: Сеть уровня 100 H7+ConnectX9700+QM2

Особенностью конструкции H100 является то, что, хотя сетевая карта представляет собой восемь графических процессоров с восемью сетевыми картами 400G, интерфейс объединен в четыре интерфейса 800G, что предъявляет большое количество требований к оптическим модулям 800G OSFP.

Сеть уровня 100 H7+ConnectX9700+QM2

На уровне 1, в соответствии с рекомендованной NVIDIA конфигурацией, рекомендуется подключить один [2*400G] оптический модуль 800G OSFP к серверному интерфейсу: MMA4Z00-НС (800 Гбит/с, двухпортовый OSFP 2x400G SR8 PAM4, 850 нм, 100 м, DOM, двойной MTP/MPO-12 MMF) или MMS4X00-NM (800 Гбит/с, двухпортовый OSFP, 2x400G PAM4, 1310 нм, 500 м DOM, двойной MTP/MPO-12 MMF), через два порта. ), два оптоволоконных кабеля (MPO) подключаются через двойной порт и подключаются к каждому из двух коммутаторов.

слой 1

Таким образом, для первого уровня один блок содержит 32 сервера, один сервер подключен к 2*4=8 коммутаторам, а SuperPOD включает в себя 4 блока, что требует всего 4*8=32 листовых коммутатора для подключения на первом уровне.

NVIDIA предлагает выделить узел для целей управления (UFM), из-за ограниченного влияния на использование оптических приемопередатчиков мы просто следуем 4 блокам 128 серверов в соответствии с сокращенным расчетом.

На первом уровне всего 4*128 = 512 оптических модулей 800G OSFP и 2*4*128 = 1024 оптических модуля 400G OSFP: MMA4Z00-NS400 (400G OSFP SR4 PAM4 850nm 30m на OM3/50m на OM4 MTP/MPO-12) или NVIDIA MMS4X00-NS400 (400G OSFP DR4 PAM4 1310нм MTP/MPO-12 500м).

слой 2

На уровне 2 коммутаторы напрямую связаны друг с другом оптическими модулями 800G, а один листовой коммутатор подключен вниз с однонаправленной скоростью 32*400G. Чтобы гарантировать, что скорости восходящего и нисходящего потоков одинаковы, для восходящего соединения требуется однонаправленная скорость 16 * 800G, требующая 16 коммутаторов гребня, всего 4 * 8 * 16 * 2 = 1024 оптических приемопередатчика 800G.

32 узла

Таким образом, в рамках этой архитектуры для двух уровней требуется в общей сложности 512+1024=1536 оптических модулей 800G OSFP и 1024x400G ОСФП оптические трансиверы, всего 4*32*8=1024 H100. Таким образом, соотношение между графическим процессором и оптическим модулем OSFP 800G составляет 1024/1536 → 1:1.5, а соотношение между графическим процессором и оптическим модулем OSFP 400G составляет 1024/1024 → 1:1.

Сценарий 4: H100+ConnectX8 (еще не выпущен) + сеть уровня 9700 QM3

Этот сценарий еще не выпущен, но давайте предположим, что после того, как H100 также будет обновлен до сетевой карты 800G, внешние интерфейсы должны быть обновлены с 4 интерфейсов OSFP до 8 интерфейсов OSFP. Соединение между каждым уровнем связано с 800G, и вся сетевая архитектура аналогична первому сценарию, только оптический модуль 200G заменен оптическим модулем 800G. Поэтому соотношение графических процессоров к оптическим модулям в этой архитектуре также составляет 1:6.

Мы организуем приведенные выше четыре сценария в следующую таблицу.

вышеупомянутые четыре сценария

Предположим, что в 300,000 году будет отгружено 100 900,000 H100+ 2023 3.15 A200, в результате чего спрос на OSFP составит 300,000 млн 400G+ 787,500 800 XNUMXG+ XNUMX XNUMX XNUMXG.

Предположим, что в 1.5 г. будет поставлено 100 млн H1.5+ 100 млн A2024, в результате чего спрос на OSFP составит 750,000 200 750,000G+, 400 6.75 800G+ и XNUMX млн XNUMXG OSFP.

А100 Н100

* В половине A100 используются коммутаторы 200G, а в половине — коммутаторы 400G.

** В половине H100 используются коммутаторы 400G, а в половине — коммутаторы 800G.

Приведенные выше оценки количества A100 H100 являются только предположениями и не отражают будущих ожиданий.

Согласно простому расчету средней цены в 1 доллар США за ГБ в 2023 году и 0.85 долларов США за ГБ в 2024 году, ожидается, что ИИ принесет 13.8/4.97 миллиарда долларов США дополнительного рыночного пространства ИИ для оптических приемопередатчиков.

Оставьте комментарий

Наверх