InfiniBand против Ethernet в HPC

Конкуренция между InfiniBand и Ethernet всегда существовала в сфере высокопроизводительных вычислений. Предприятиям и организациям необходимо взвесить преимущества и недостатки этих двух технологий, чтобы выбрать сетевую технологию, которая лучше всего соответствует их потребностям. Наличие нескольких вариантов оптимизации систем — это хорошо, потому что разное программное обеспечение ведет себя по-разному, а разные учреждения имеют разные бюджеты. Поэтому мы видим использование различных межсоединений и протоколов в системах HPC и думаем, что это разнообразие не уменьшится, а может увеличиться, особенно по мере постепенного приближения к концу закона Мура.

StorageReview-NVIDIA-NDR-Infiniband

Всегда интересно внимательно изучить тенденции межсетевых соединений в рейтинге суперкомпьютеров Top500, который публикуется два раза в год. Мы проанализировали новые системы в списке и все вычислительные показатели, отраженные в рейтинге, и теперь пришло время взглянуть на межсоединения. Гилад Шайнер, старший вице-президент и менеджер по продуктам Quantum InfiniBand коммутаторы в Nvidia (бывшая часть Mellanox Technology), всегда анализируют межсоединения Top500 и делятся ими с нами. Теперь мы можем поделиться с вами его анализом. Давайте углубимся. Начнем с тенденции развития межсетевых технологий в списке Top500 с ноября 2007 года по июнь 2021 года.

тенденция развития межсетевых технологий

В список Top500 входят высокопроизводительные вычислительные системы академических, правительственных и промышленных кругов, а также системы, созданные поставщиками услуг, разработчиками облачных вычислений и гипермасштабными вычислительными платформами. Таким образом, это не чистый список «суперкомпьютеров», как люди обычно называют суперкомпьютеры, выполняющие традиционные задачи моделирования и моделирования.

За последние тринадцать с половиной лет InfiniBand и Ethernet, работающие на скоростях 10 Гбит/с и ниже, переживали взлеты и падения. InfiniBand растет, в то время как его вариант Omni-Path (ранее контролируемый Intel, а теперь принадлежащий Cornelis Networks) немного опустился в рейтинге за июнь 2021 года.

CORNELIS публикует дорожную карту межсоединения OMNI-PATH

Тем не менее, скорость Ethernet, работающая на скорости 25 Гбит/с или выше, находится на подъеме, особенно в период быстрого роста в период с 2017 по 2019 год, поскольку коммутаторы 100 Гбит/сек (обычно коммутаторы Mellanox Spectrum-2) дешевле, чем предыдущие технологии 100 Гбит/сек. которые полагались на более дорогие режимы передачи, поэтому большинство высокопроизводительных вычислительных центров не рассматривали бы возможность их использования. Как и многие разработчики гипермасштабируемых и облачных технологий, они пропустили поколение Ethernet со скоростью 200 Гбит/с, за исключением соединений магистральных сетей и центров обработки данных, и дождались снижения стоимости коммутаторов со скоростью 400 Гбит/с, чтобы можно было использовать устройства со скоростью 400 Гбит/с.

В рейтинге за июнь 2021 года, если сложить данные Nvidia InfiniBand и Intel Omni-Path, получится 207 компьютеров с межсоединениями InfiniBand, что составляет 41.4 процента списка. Мы сильно подозреваем, что некоторые из межсоединений, названных в списке «собственными» (в основном из Китая), также являются вариантами InfiniBand. Что касается Ethernet, независимо от скорости, доля межсоединений Ethernet в списке Top500 за последние четыре года варьировалась от минимума в 248 машин в июне 2021 года до максимума в 271 машину в июне 2019 года. В последние годы InfiniBand подрывает позиции Ethernet, что для нас неудивительно, поскольку рабочие нагрузки высокопроизводительных вычислений (а теперь и искусственного интеллекта) очень чувствительны к задержкам, а стоимость InfiniBand со временем снижается по мере его продаж. постепенно увеличивались. (Внедрение InfiniBand разработчиками гипермасштабируемых и облачных технологий помогает снизить цены.)

Большинство систем из Top100 и Top10 можно назвать настоящими суперкомпьютерами, то есть они в основном занимаются традиционными высокопроизводительными вычислениями. Однако все больше и больше машин также выполняют некоторые рабочие нагрузки искусственного интеллекта. Вот распределение межсоединений между этими топовыми машинами.

распределение межсоединений между этими топовыми машинами

Как видно из рисунка выше, Ethernet здесь не доминирует, но он будет расти по мере того, как HPE начнет поставлять Slingshot со скоростью 200 Гбит/с (вариант Ethernet, оптимизированный для высокопроизводительных вычислений, разработанный Cray), который уже используется « Perlmutter» в Национальной лаборатории Лоуренса в Беркли с двумя портами 100 Гбит/с на узел. Мы также сильно подозреваем, что машина Sunway TaihuLight (в Национальном суперкомпьютерном центре в Уси, Китай) использует вариант InfiniBand (хотя ни компания Mellanox, ни лаборатория этого не подтвердили). Бывший номер один «Fugaku» (в Институте RIKEN в Японии) использует технологию межсоединений Tofu D третьего поколения, разработанную Fujitsu, которая реализует запатентованную топологию и протокол 6D-тора. В «Тяньхэ-2А» (в Национальном суперкомпьютерном центре в Гуанчжоу, Китай) используется запатентованная технология межсоединения TH Express-2, которая является уникальной.

В рейтинге компьютеров Top100 межсоединения Cray включают не только первую машину Slingshot, но и партию машин, использующих межсоединения предыдущего поколения «Aries». В рейтинге за июнь 2021 года в Топ100 вошли пять автоматов Slingshot и девять автоматов Aries. Если рассматривать Slingshot как Ethernet, то доля Ethernet составляет 6%, а доля фирменного Cray падает до 9%. Если Mellanox/Nvidia InfiniBand объединить с Intel Omni-Path, InfiniBand будет иметь 79 машин в Top100.

При расширении от Top100 до Top500 распределение межсоединений происходит следующим образом: каждый раз добавляется по 100 машин:

расширение с Top100 до Top500

Ожидается, что проникновение Ethernet будет расти по мере расширения списка, поскольку многие академические и промышленные высокопроизводительные вычислительные системы не могут позволить себе InfiniBand или не желают переходить с Ethernet. И эти поставщики услуг, разработчики облаков и операторы гипермасштабирования используют Linpack на небольшой части своих кластеров по политическим или деловым причинам. Относительно медленный Ethernet популярен в нижней половине списка Top500, тогда как проникновение InfiniBand падает с 70% в Top10 до 34% в полном Top500.

Следующий рисунок представляет собой еще одну диаграмму, которая объединяет большую часть InfiniBand и Ethernet из списка Top500 и частично объясняет, почему Nvidia заплатила 6.9 миллиарда долларов за приобретение Mellanox.

InfiniBand и Ethernet в Top500

На InfiniBand от Nvidia приходится 34% межсоединений Top500, включая 170 систем, но рост Ethernet-коммутаторов Mellanox Spectrum и Spectrum-2 в Top500 не очевиден, поскольку они добавляют еще 148 систем. Это дает Nvidia долю в 63.6% всех межсоединений в рейтинге Top500. Это достижение, которым Cisco Systems пользовалась на протяжении 20 лет в корпоративных центрах обработки данных.

Оставьте комментарий

Наверх