Изучение интернет-центров обработки данных: эволюция DCN

Эволюция спроса на сеть центров обработки данных (DCN)

Сеть является важнейшим компонентом ИТ-инфраструктуры, служащей основой, соединяющей все ресурсы уровня IaaS для предоставления услуг. В эпоху данных основой облачных вычислений, больших данных и искусственного интеллекта являются сами данные, а сеть действует как высокоскоростная магистраль, по которой передается поток данных.

Сети центров обработки данных претерпели значительные изменения за последнее десятилетие, превратившись из строгих и стандартизированных центров обработки данных финансовой индустрии в современные интернет-компании, возглавляющие технологическую волну.

Эволюция спроса на сеть центров обработки данных (DCN)

Сегодня, благодаря быстрому развитию облачных технологий, охватывающих более 200 проектов, разработка, развертывание, эксплуатация и обслуживание приложений претерпели изменения. Множество систем приложений создаются с использованием облачных технологий, при этом контейнеры служат наименьшей единицей бизнес-рабочей нагрузки, характеризующейся гибкостью, согласованностью и мощными возможностями репликации и масштабирования. Кластеры, состоящие из множества контейнеров, намного превышают количество виртуальных машин. Кроме того, более детальные механизмы распределения ресурсов и стратегии распределения надежности привели к более частому межузловому обмену данными и взаимодействию между бизнес-контейнерами и различными компонентами распределенной системы. Они полагаются на внешние сети для обеспечения надежной сквозной пересылки, что повышает требования к контролю и визуализации трафика.

Кроме того, с широким распространением технологий больших данных и искусственного интеллекта широкое применение получили основанные на них системы, такие как системы рекомендаций, поиск и распознавание изображений, голосовое взаимодействие и машинный перевод. Большие данные и искусственный интеллект стали жизненно важными инструментами управления бизнесом и рыночной конкуренции, при этом огромные объемы данных хранятся для анализа и анализа. От обработки данных и обучения моделей (машинное обучение/глубокое обучение) до онлайн-сервисов — каждый шаг опирается на мощные вычисления и огромные объемы данных, что увеличивает потребление вычислительных ресурсов и ресурсов хранения. Это привело к развитию строительства центров обработки данных в сторону крупномасштабных и сверхкрупных масштабов, при этом сопутствующий масштаб сети также растет, что делает автоматизацию сети и интеллектуальное управление необходимостью.

Наконец, важно отметить взрывной рост длинных и коротких видеороликов, прямых трансляций, VR/AR и других средств потокового видео за последние два года. Они проникли в различные области, такие как новости, образование, шопинг, общение, путешествия и игровые развлечения, с обширной базой пользователей и высокой продолжительностью использования. В сочетании с быстрым распространением терминалов 5G ожидания пользователей в отношении высококачественного видео и просмотра с малой задержкой продолжают расти, что еще больше увеличивает потребление пропускной способности сети.

В ответ на изменение тенденций в бизнес-требованиях и быстрое развитие сетевых технологий скорость итерации сетевого оборудования центров обработки данных также увеличилась. В настоящее время, коммутаторы центров обработки данных обновляются продуктами нового поколения каждые два года, и каждое новое поколение offУ них почти вдвое выше производительность, выше пропускная способность, больше записей в таблицах и больше функций, а также более целенаправленное позиционирование ролей в сети.

Новое поколение
Переключатель СПО 800G
Эволюция продукта H3C на базе чипов серии Tomahawk

Благодаря общей отраслевой среде серверных сетевых карт и оптических модулей пропускная способность каналов доступа к центрам обработки данных изменилась с 10G -> 25G -> 50G -> 100G -> 200G -> 400G, а также изменилась пропускная способность межсоединений. от 40G -> 100G -> 200G -> 400G -> 800G. Основной сценарий изменился с комбинации доступа 25G + межсоединения 100G к текущей комбинации доступа 100G + межсоединения 400G. В сценариях с графическими процессорами доступ будет развиваться от 100G, 200G до 400G, 800G.

Эволюция продуктов H3C на базе чипов серии Trident
Эволюция продуктов H3C на базе чипов серии Trident

Учитывая вышеупомянутый контекст и сетевую архитектуру, на выбор сетевой архитектуры DCN влияют многие факторы, такие как бизнес-требования, текущие технологические условия, стоимость оборудования, затраты на управление и инвестиции в человеческие ресурсы. Не существует единой архитектуры, которая могла бы удовлетворить все сценарии и потребности клиентов; Прежде чем сделать выбор, необходимо провести всестороннее рассмотрение и баланс.

Двухуровневая архитектура Clos: подходит для центров обработки данных малого и среднего размера.

Двухуровневая архитектура Clos является одной из самых ранних и наиболее широко применяемых сетевых структур, и по сей день она остается предпочтительным выбором для многих клиентов отрасли. Сетевое оборудование играет только две роли: обеспечивая короткие пути пересылки данных с перекрестной доступностью в пределах одного перехода и offобеспечение строгой согласованности путей и задержек. Подход унифицированного доступа значительно облегчает развертывание и горизонтальное масштабирование, например развертывание протоколов BGP, контроль политик, текущее обслуживание и устранение неполадок. Он особенно хорошо подходит для малых и средних предприятий с меньшим количеством обслуживающего персонала.

Двухуровневая архитектура Clos предъявляет высокие требования к производительности и надежности коммутаторов Spine, обычно в них используются коммутаторы ядра на базе шасси центра обработки данных. Благодаря механизмам переменной пересылки ячеек и планирования VoQ он обеспечивает строгую неблокирующую коммутацию внутри устройств Spine, а конфигурация распределенных больших кэшей естественным образом превосходно справляется с всплесками трафика. Коммутаторы ядра на базе шасси имеют независимые плоскости управления, плоскости пересылки и системы поддержки, а также используют резервные конструкции, что делает всю систему намного более надежной, чем коммутаторы блочного типа.

Решение H3C AD-DC для центров обработки данных, управляемых приложениями
Решение H3C AD-DC для центров обработки данных, управляемых приложениями

Двухуровневая архитектура Clos более зрела в плане совместимости с коммерческими решениями контроллеров SDN. В сочетании с контроллером SDN он может быстро создавать сетевые решения Overlay на основе EVPN, уменьшая сложность развертывания сервисных цепочек восток-запад и север-юг и удовлетворяя потребность сети в полноценном соединении вычислительных ресурсов, таких как виртуальные машины, «голое железо». и контейнеры в облачных сценариях.

Кроме того, эта архитектура также подходит для крупных предприятий, развертывающих комнаты конвергенции и периферийные комнаты в различных местах для построения периферийных вычислительных сетей, снижая нагрузку на магистральную сеть и уменьшая задержку доступа.

Пример двухуровневого двойного позвоночника Clos
Пример двухуровневого двойного позвоночника Clos
Пример двухуровневого позвоночника Clos Quad
Пример двухуровневого позвоночника Clos Quad

В Spines используются 2 или 4 основных коммутатора на базе шасси, а каждый Leaf-коммутатор имеет 4 восходящих канала. При обеспечении коэффициента конвергенции 3:1 (10G Leaf с восходящими каналами 440G, нисходящими каналами 4810G; 25G Leaf с восходящими каналами 4100G, нисходящими каналами 4825G) масштаб поддерживаемых серверов (двойной восходящий канал) может достигать более 5000 и 10000 соответственно.

Как видно из топологии, масштаб сети или возможность горизонтального расширения двухуровневой архитектуры Clos ограничен общим количеством портов, предоставляемых устройствами Spine (количество устройств * портов на устройство). Поскольку количество uplink-портов на Leaf-коммутаторах фиксировано (обычно 4-8), количество коммутаторов уровня Spine также ограничено и не может постоянно увеличиваться.

Трехуровневая архитектура Clos: подходит для крупномасштабных и гипермасштабных центров обработки данных.

Масштаб серверов, поддерживаемых двухуровневой архитектурой Clos, обычно не превышает 20,000 XNUMX единиц. Внедрение трехуровневой архитектуры Clos устраняет узкое место в масштабе сети, возникающее из-за двухуровневой архитектуры. Трехуровневая архитектура Clos добавляет уровень коммутаторов агрегации (Pod Spine) между двумя существующими уровнями. Группа коммутаторов Pod Spine вместе со всеми подключенными коммутаторами Leaf образуют Pod. Несколько модулей Pod соединены между собой через коммутаторы уровня Spine, образуя всю сеть. Увеличение количества модулей позволяет осуществлять горизонтальное масштабирование сети, значительно расширяя возможности ее расширения. Более того, развертывание сервисов с помощью модуля Pod offобеспечивает большую гибкость в адаптации к различным потребностям бизнеса, предоставлении дифференцированных услуг и обеспечении изоляции.

Пример A трехуровневого замыкания: SPIN с 64 портами 100G.
Пример A трехуровневого замыкания: SPIN с 64 портами 100G.
Пример Б трехуровневого замыкания: SPIN со 128 портами 100G.
Пример Б трехуровневого замыкания: SPIN со 128 портами 100G.

Внутри каждого модуля трехуровневой архитектуры Clos Pod Spine использует четыре или восемь блочных коммутаторов 100G высокой плотности. Половина портов Pod Spine используется для подключения вверх к Spine, а другая половина — для подключения вниз к коммутаторам Leaf. Каждый коммутатор Leaf имеет четыре или восемь восходящих каналов. Типичные сценарии следующие:

Сценарий А: Pod Spine использует четыре 64-портовых коммутатора 100G блочного типа (S9820-64H). Каждый коммутатор Leaf имеет четыре восходящих канала. Благодаря конвергенции 3:1 внутри модуля (25G Leaf с восходящими каналами 4100G, нисходящими каналами 4825G) один модуль может поддерживать масштаб сервера из 768 устройств с двумя восходящими каналами.

Сценарий B: Pod Spine использует восемь 128-портовых коммутаторов 100G блочного типа (S9820-8C). Каждый коммутатор Leaf имеет восемь восходящих каналов. Благодаря конвергенции 1.5:1 внутри модуля (25G Leaf с восходящими каналами 8100G, нисходящими каналами 4825G) один модуль может поддерживать масштаб сервера в 1536 единиц с двумя восходящими каналами. Благодаря конвергенции 1:1 (25G Leaf с восходящими каналами 8100G, нисходящими каналами 3225G) один модуль может поддерживать масштаб сервера в 1024 устройства с двумя восходящими каналами.

Внедрение коммутатора агрегации высокой плотности Pod Spine позволило коммутаторам ядра стоечного типа уровня Spine превзойти ограничения, что позволило развернуть десятки устройств. Общее количество портов, предоставляемых коммутаторами ядра стоечного типа уровня Spine, можно использовать для подключения десятков модулей, что позволяет всей сети поддерживать серверное масштабирование более 100,000 XNUMX устройств.

Кроме того, регулируя соотношение портов восходящей и нисходящей линии связи в коммутаторах Pod Spine, можно гибко определять коэффициент конвергенции для каждого Pod. Это не только отвечает различным потребностям бизнеса, но также помогает сократить расходы и избежать ненужных отходов.

Многоуровневая архитектура Clos: подходит для крупномасштабных и гипермасштабных центров обработки данных.

Многоплоскостная сетевая архитектура на основе устройств коробчатого типа — это новейшая архитектура, принятая ведущими интернет-компаниями для построения крупномасштабных и гипермасштабных сетей центров обработки данных. Эта архитектура возникла на основе F4 от Facebook. Два поколения коммутаторов, использованных для построения этой сети, 6-pack и Backpack, были основаны на многочиповой (12 чипов) конструкции, что делало управление и развертывание неудобным и дорогостоящим. При переходе от F4 к F16, благодаря улучшению возможностей чипа, коммутатор Minipack, использованный для создания F16, принял однокристальную конструкцию, что значительно снизило энергопотребление, стоимость и технические барьеры. Решение стало более зрелым, и с тех пор эту архитектуру внедрили интернет-компании Китая.

сетей

В статьях «Представляем Data Center Fabric, сеть центров обработки данных Facebook нового поколения» и «Переосмысление сети центров обработки данных Facebook» представлены подробные объяснения этой архитектуры. По сравнению с трехуровневой архитектурой Clos, многоплоскостная сетевая архитектура, основанная на устройствах блочного типа, заменяет коммутаторы стоечного типа на уровне Spine коммутаторами блочного типа, таким образом, все уровни сети состоят из коммутаторов блочного типа. С точки зрения подключения устройств, в отличие от трехуровневой архитектуры Clos, где каждый Pod Spine должен быть полностью связан со всеми коммутаторами уровня Spine, новая архитектура делит коммутаторы уровня Spine на несколько групп (количество групп соответствует количеству Pod Spine). Переключатели Spine в каждом модуле). Каждая группа переключателей Spine образует плоскость (как показано на рисунке, слой Spine разделен на 8 плоскостей, различающихся разными цветами), и каждый переключатель Pod Spine нужно лишь полностью связать в сетку с переключателями Spine в соответствующей плоскости. Это позволяет всему уровню Spine подключать больше модулей, создавая гипермасштабируемый центр обработки данных, поддерживающий сотни тысяч серверов. Более того, по мере улучшения производительности коммутаторов блочного типа эта архитектура может продолжать расширять свою емкость.

Коммутатор основного шасси S12516X-AF с полностью оборудованной 48-портовой сервисной платой 100G, а также шесть блочных коммутаторов S9820-8C со 128 портами 100G каждый могут обеспечить одинаковое количество 100G порты (всего 768). Однако выбор решения с коробочным переключателем offЭто дает значительные преимущества в стоимости, энергопотреблении и рассеивании тепла. Это также устраняет особые требования к пространству шкафа и распределению питания, которые предъявляются к традиционным коммутаторам на базе ядра.

Поскольку и Spine, и Pod Spine используют идентичное оборудование с одинаковой функциональностью и задержкой пересылки, это облегчает разработку новых функций и плавное развертывание приложений по всей сети. Более того, сеть может плавно перейти от сети 100G к сети 200G. 400Gи синхронизация будущих высокоскоростных сетей. Кроме того, благодаря однокристальной конструкции весь уровень Spine, построенный с помощью блочных коммутаторов, демонстрирует значительно меньшую задержку пересылки по сравнению с использованием устройств на шасси, что еще больше снижает задержку доступа между модулями.

Тем не менее, эта архитектура ставит новые проблемы. Количество устройств уровня Spine значительно выше, чем при использовании коммутаторов шасси, а индивидуальная надежность блочных коммутаторов ниже, чем у коммутаторов ядра ядра, что создает серьезные проблемы для управления сетью и повседневной эксплуатации. Поддерживающие платформы управления, системы мониторинга и многое другое должны быть адаптированы к этим изменениям. Это требует повышенных требований к группам сетевых операций, включая усовершенствованное кадровое подразделение, обширный опыт эксплуатации, надежные технические навыки, возможности разработки платформ и общий контроль сети для смягчения и уменьшения влияния сбоев оборудования и сетей на бизнес-операции.

gRPC+INT

Выше были представлены три наиболее типичные сетевые архитектуры DCN. Эффективное управление этими сетями требует использования технологии сетевой визуализации. Технология сетевой визуализации не только обеспечивает сквозной мониторинг трафика и оповещение о рисках, а также помогает в устранении неполадок, но также, посредством накопления и анализа данных, может направлять и оптимизировать проектирование сетевой архитектуры центров обработки данных (например, модели, коэффициенты конвергенции, и POD-шкалы), что делает его важнейшим техническим инструментом.

Технология сетевой визуализации становится все более проактивной, эффективной и интеллектуальной. Например, использование gRPC позволяет в режиме реального времени и с высокой точностью собирать различную информацию с устройств. INT или Telemetry Stream можно использовать для получения пути и задержки передачи бизнес-данных в сети. TCB позволяет отслеживать MMU устройства, чтобы фиксировать время потери пакетов в очереди, причины и отброшенные пакеты. MOD может обнаруживать потерю пакетов, происходящую во время внутренних процессов пересылки устройства, и фиксировать причины потери пакетов и характеристики отброшенных пакетов. Packet Trace позволяет проводить углубленный анализ логики пересылки, моделируя пересылку пакетов внутри чипов для выявления основных причин проблем.

В будущем интеллектуальные сетевые карты будут играть важную роль в сетях DCN. Интеллектуальные сетевые карты с программируемыми возможностями не только освобождают ресурсы ЦП и обеспечивают высокопроизводительную пересылку, но и offболее эффективные функции, такие как туннельная инкапсуляция/декапсуляция, виртуальная коммутация, шифрование/дешифрование, RDMA и т. д. С ростом бизнес-сценариев и требований интеллектуальные сетевые карты будут выполнять больше функций плоскости данных, что позволит преодолеть ограничения реализаций на основе серверов или коммутаторов. Этот сдвиг направлен на достижение идеального баланса производительности, функциональности и гибкости. Интеллектуальные сетевые адаптеры заменят коммутаторы Leaf на самом дальнем конце сетей DCN. Следовательно, сетевая архитектура, развертывание протоколов, технология визуализации и т. д. изменятся с появлением интеллектуальных сетевых карт, что будет способствовать сквозной оптимизации производительности и обеспечению качества обслуживания, сквозному обнаружению и мониторингу, а также применению новых технологий. как SRv6. Будущие сети DCN будут развиваться и предоставлять более стабильные, эффективные и гибкие сетевые услуги для все более разнообразных предприятий верхнего уровня.

Оставьте комментарий

Наверх