Ein Netzwerkprotokoll ist eine Sammlung von Regeln, Standards oder Konventionen, die für den Datenaustausch in einem Computernetzwerk festgelegt wurden. Auf rechtlicher Ebene ist das OSI-Sieben-Schichten-Protokoll ein internationales Protokoll.
Aufgrund der Anforderungen von HPC/AI an hohen Netzwerkdurchsatz und geringe Latenz wird TCP/IP in Rechenzentren schrittweise auf RDMA umgestellt. RDMA umfasst verschiedene Zweige. Unter ihnen ist Infiniband speziell für RDMA konzipiert, was eine zuverlässige Übertragung auf Hardwareebene garantiert. Es verfügt über fortschrittliche Technologie, ist aber teuer. RoCE und iWARP basieren beide auf Ethernet-RDMA-Technologie.
Dieser Artikel konzentriert sich auf die folgenden Aspekte, um die Beziehung zwischen Schaltern und KI zu diskutieren.
F: Was ist ein Protokoll?
F: Welche Rolle spielen Switches in der Rechenzentrumsarchitektur?
F: NVIDIA-Switch = IB-Switch?
F: Wie ist NVIDIA SuperPOD zu verstehen?
F: Wie ist der Status Quo des Switch-Marktes?
Was ist ein Protokoll?
Ein Netzwerkprotokoll ist eine Sammlung von Regeln, Standards oder Konventionen, die für den Datenaustausch in einem Computernetzwerk festgelegt wurden. Auf rechtlicher Ebene ist das OSI-Siebenschichtprotokoll ein internationales Protokoll. In den 1980er Jahren wurde das OSI-Protokoll (Open System Interconnection) vorgeschlagen, um die Kommunikationsmethoden zwischen Computern zu standardisieren und den Anforderungen offener Netzwerke gerecht zu werden. Dabei wurde ein Siebenschichtnetzwerk eingeführt.
- Physikalische Schicht: Sie löst die Art und Weise, wie Hardware miteinander kommuniziert. Ihre Hauptfunktion besteht darin, physikalische Gerätestandards (wie Schnittstellentyp, Übertragungsrate usw.) zu definieren, um die Übertragung von Bitströmen (ein durch 0 und 1 dargestellter Datenstrom) zu erreichen.
- Datenverbindungsschicht: Die Hauptfunktionen sind Frame-Codierung und Fehlerkorrektursteuerung. Die spezifische Arbeit besteht darin, Daten von der physischen Schicht zu empfangen, sie in Frames zu kapseln und sie dann an die obere Schicht zu übertragen. In ähnlicher Weise können die Daten von der Netzwerkschicht in Bitströme aufgeteilt und an die physische Schicht übertragen werden. Die Fehlerkorrekturfunktion kann erreicht werden, da jeder Frame zusätzlich zu den zu übertragenden Daten auch Überprüfungsinformationen enthält.
- Netzwerkschicht: Erstellt logische Schaltkreise zwischen Knoten und findet Adressen über IP (jeder Knoten im Netzwerk hat eine IP). Die auf dieser Schicht übertragenen Daten werden in Paketen übertragen.
- Transportschicht: verantwortlich für die Überwachung der Qualität der Datenübertragung. Bei Paketverlust sollte das Paket erneut gesendet werden.
- Sitzungsschicht: Die Hauptfunktion besteht darin, Sitzungsverbindungen von Netzwerkgeräten zu verwalten.
- Präsentationsschicht: hauptsächlich verantwortlich für die Datenformatkonvertierung, Verschlüsselung usw.
- Anwendungsschicht: Bietet Anwendungsschnittstellen, die Benutzern verschiedene Netzwerkdienste direkt bereitstellen und verschiedene Netzwerkaufgaben ausführen können.
TCP/IP ist ein Protokollstapel, der verschiedene Protokolle umfasst. Diese Protokolle können grob in vier Schichten unterteilt werden, nämlich Anwendungsschicht, Transportschicht, Netzwerkschicht und Datenverbindungsschicht. Tatsächlich kann das TCP/IP-Protokoll als optimierte Version des OSI-Siebenschichtprotokolls verstanden werden.

Vergleich zwischen dem siebenschichtigen OSI-Netzwerkmodell und dem vierschichtigen TCP/IP-Modell
Aufgrund der HPC-Anforderungen an hohen Netzwerkdurchsatz und geringe Latenz wird TCP/IP schrittweise auf RDMA umgestellt. TCP/IP hat mehrere große Nachteile:
Erstens gibt es eine Latenz von mehreren zehn Mikrosekunden. Da der TCP/IP-Protokollstapel während der Übertragung mehrere Kontextwechsel erfordert und für die Kapselung auf die CPU angewiesen ist, ist die Latenz relativ lang.
Zweitens ist die CPU stark ausgelastet. Das TCP/IP-Netzwerk erfordert, dass die Host-CPU mehrfach am Kopieren des Protokollstapelspeichers teilnimmt, und der Korrelationskoeffizient zwischen CPU-Auslastung und Netzwerkbandbreite ist zu groß.
RDMA (Remote Direct Memory Access): kann ohne Eingreifen des Betriebssystemkernels direkt über die Netzwerkschnittstelle auf Speicherdaten zugreifen. Dies ermöglicht eine Netzwerkkommunikation mit hohem Durchsatz und geringer Latenz, die sich insbesondere für den Einsatz in massiv parallelen Computerclustern eignet.

Drei Modi von RDMA
RDMA spezifiziert nicht den gesamten Protokollstapel, stellt aber hohe Anforderungen an bestimmte Übertragungen: beispielsweise kein Verlust, hoher Durchsatz und geringe Latenz usw. RDMA umfasst verschiedene Zweige, darunter Infiniband, das speziell für RDMA entwickelt wurde und eine zuverlässige Übertragung auf Hardwareebene garantiert. Es ist technologisch fortschrittlich, aber kostspielig. RoCE und iWARP basieren beide auf der Ethernet-RDMA-Technologie.
Welche Rolle spielen Switches in der Rechenzentrumsarchitektur?
Switches und Router arbeiten auf unterschiedlichen Ebenen. Der Switch arbeitet auf der Datenverbindungsschicht und kann Datenpakete basierend auf der MAC-Identifikation (Hardwareadresse der Netzwerkkarte) kapseln und weiterleiten, sodass verschiedene Geräte miteinander kommunizieren können. Ein Router, auch als Pfadwähler bekannt, arbeitet auf der Netzwerkschicht, um eine Verbindung herzustellen, implementiert eine Adressierung basierend auf IP und verbindet verschiedene Subnetze.
Herkömmliche Rechenzentren verwenden häufig eine dreischichtige Architektur, nämlich die Zugriffsschicht, die Aggregationsschicht und die Kernschicht. In kleinen Rechenzentren kann die Existenz der Aggregationsschicht jedoch vernachlässigt werden. Die Zugriffsschicht ist dabei normalerweise direkt mit dem Server verbunden, wobei der TOR-Switch (Top of Rack) am häufigsten verwendet wird. Die Aggregationsschicht ist der „Vermittler (mittlere Schicht)“ zwischen der Netzwerkzugriffsschicht und der Kernschicht. Kernswitches sorgen für die Weiterleitung von Paketen, die in das Rechenzentrum ein- und ausgehen, und stellen die Konnektivität für die Aggregationsschicht bereit.
Mit der Entwicklung des Cloud-Computing sind die Nachteile herkömmlicher dreischichtiger Netzwerke deutlicher geworden:
- Bandbreitenverschwendung: Jede Gruppe von Aggregations-Switches verwaltet einen POD (Point Of Delivery), und jeder POD verfügt über ein unabhängiges VLAN-Netzwerk. Zwischen Aggregations-Switches und Access-Switches wird üblicherweise das Spanning Tree Protocol (STP) verwendet. STP stellt für ein VLAN-Netzwerk nur einen Switch der Aggregationsschicht zur Verfügung, während andere Aggregationsschichten blockiert sind. Dies macht es auch unmöglich, die Aggregationsschicht horizontal zu erweitern.
- Großer Fehlerbereich: Aufgrund des STP-Algorithmus ist bei einer Änderung der Netzwerktopologie eine erneute Konvergenz erforderlich, was fehleranfällig ist.
- Lange Latenz: Mit der Entwicklung von Rechenzentren hat der Ost-West-Verkehr erheblich zugenommen, und die Kommunikation zwischen Servern in der dreischichtigen Architektur muss Schicht für Schicht durch Switches laufen, was zu einer langen Latenz führt. Darüber hinaus nimmt der Arbeitsdruck von Core-Switches und Aggregations-Switches weiter zu, und Leistungsverbesserungen verursachen auch steigende Kosten.
Die Leaf-Spine-Architektur bietet offensichtliche Vorteile, darunter flaches Design, geringe Latenz und hohe Bandbreite. Das Leaf-Spine-Netzwerk flacht das Netzwerk ab, wobei die Leaf-Switches herkömmlichen Access-Layer-Switches entsprechen und die Spine-Switches Core-Switches ähneln.
Über ECMP (Equal Cost Multi Path) werden mehrere Pfade dynamisch zwischen Leaf- und Spine-Switches ausgewählt. Wenn es keine Engpässe in den Zugriffsports und Uplinks der Leaf-Schicht gibt, wird mit dieser Architektur eine Blockierungsfreiheit erreicht. Da jedes Leaf im Fabric mit jedem Spine verbunden ist, wird die Durchsatzleistung des Rechenzentrums bei Ausfall eines Spines nur geringfügig beeinträchtigt.
NVIDIA-Switch = IB-Switch?
Nein. NVIDIA Spectrum- und Quantum-Plattformen sind sowohl mit Ethernet- als auch mit IB-Switches ausgestattet.
IB-Switches werden hauptsächlich vom Hersteller Mellanox betrieben, den NVIDIA 2020 erfolgreich übernommen hat. Darüber hinaus basieren die Switches der Spectrum-Plattform von NVIDIA hauptsächlich auf Ethernet und ihre Produkte werden ständig weiterentwickelt. Das 4 veröffentlichte Spectrum-2022 ist ein 400G-Switch-Produkt.

NVIDIA Spectrum- und Quantum-Plattformen
Spectrum-X ist für generative KI konzipiert und optimiert die Einschränkungen herkömmlicher Ethernet-Switches. Zwei Schlüsselelemente der NVIDIA Spectrum X-Plattform sind der NVIDIA Spectrum-4-Ethernet-Switch und die NVIDIA BlueField-3-DPU.
Zu den wichtigsten Vorteilen von Spectrum-X gehören: Erweiterung von RoCE für KI und Adaptive Routing (AR), um die maximale Leistung der NVIDIA Collective Communications Library (NCCL) zu erreichen. NVIDIA Spectrum-X kann bei der Auslastung und Skalierung von Hyperscale-Systemen eine effektive Bandbreite von bis zu 95 % erreichen.
- Nutzen Sie die Leistungsisolierung, um sicherzustellen, dass in einer Umgebung mit mehreren Mandanten und mehreren Jobs ein Job keinen anderen Job beeinträchtigt.
- Stellen Sie sicher, dass die Netzwerkinfrastruktur beim Ausfall einer Netzwerkkomponente weiterhin Höchstleistung liefert.
- Synchronisieren Sie mit BlueField-3 DPU für optimale NCCL- und AI-Leistung.
- Sorgen Sie für eine konsistente und stabile Leistung bei einer Vielzahl von KI-Workloads. Dies ist für die Einhaltung von SLAs von entscheidender Bedeutung.
Im Netzwerkmodus ist IB oder Ethernet eine wichtige Frage. Auf dem aktuellen Markt nimmt Ethernet den größten Marktanteil ein, aber in einigen groß angelegten Computerszenarien sticht IB hervor. Auf der ISC 2021 Supercomputing Conference machte IB 70 % der TOP10-Systeme und 65 % der TOP100-Systeme aus. Mit zunehmendem Betrachtungsumfang nimmt der Marktanteil von IB ab.
Die Spectrum- und Quantum-Plattformen zielen auf unterschiedliche Anwendungsszenarien ab. In der Vision von Nvidia können KI-Anwendungsszenarien grob in KI-Cloud und KI-Fabrik unterteilt werden. In der KI-Cloud können herkömmliche Ethernet-Switches und Spectrum-X-Ethernet verwendet werden, während in der KI-Fabrik NVLink+InfiniBand-Lösungen erforderlich sind.
Wie versteht man NVIDIA SuperPOD?
SuperPOD ist ein Servercluster, der mehrere Computerknoten verbindet, um eine höhere Durchsatzleistung zu bieten.
Am Beispiel von NVIDIA DGX A100 SuperPOD ist der in der von NVIDIA offiziell empfohlenen Konfiguration verwendete Switch QM9700, der 40 200G-Ports bereitstellen kann. In der ersten Schicht hat der DGX A100-Server insgesamt 8 Schnittstellen, die jeweils mit 8 Leaf-Switches verbunden sind, da er eine Fat-Tree-Architektur (nicht konvergierend) verwendet. 20 Server bilden eine SU, daher werden insgesamt 8*SU-Server benötigt. In der Architektur der zweiten Schicht muss der vom Spine-Switch bereitgestellte Uplink-Port größer oder gleich dem Downlink-Port des Leaf-Switches sein, da das Netzwerk nicht konvergiert und die Portgeschwindigkeit konsistent ist. Daher entspricht 1 SU 8 Leaf-Switches und 5 Spine-Switches, 2 SUs entsprechen 16 Leaf-Switches und 10 Spine-Switches usw. Wenn die Anzahl der SUs auf über 6 steigt, wird außerdem offiziell empfohlen, einen Core-Layer-Switch hinzuzufügen.

NVIDIA DGX A100 SuperPOD-Architekturreferenz
Im DGX A100 SuperPOD beträgt das Server-Switch-Verhältnis im Computernetzwerk 1:1.17 (am Beispiel von 7 SUs); im DGX A100 SuperPOD beträgt das Verhältnis jedoch 1:0.38. Unter Berücksichtigung der Anforderungen an Speicher- und Netzwerkverwaltung betragen die Server-Switch-Verhältnisse für den DGX A100 SuperPOD und den DGX H100 SuperPOD 1:1.34 bzw. 1:0.50.
In Bezug auf die Ports besteht in der empfohlenen Konfiguration für DGX H100 jede SU aus 31 Servern. Einerseits verfügt der DGX H100 nur über 4 Schnittstellen zum Computing, andererseits ist der Switch ein QM9700, der 64 400G-Ports im DGX H100 SuperPOD bereitstellt.
In Bezug auf die Switch-Leistung wurde die Leistung des QM9700 in der empfohlenen Konfiguration des DGX H100 SuperPOD erheblich verbessert. Infiniband-Switches führen Sharp-Technologie ein. Durch die Erstellung eines Streaming Aggregation Tree (SAT) in der physischen Topologie über den Aggregationsmanager und die anschließende parallele Ausführung von Operationen mehrerer Switches im Baum kann die Latenz erheblich reduziert und die Netzwerkleistung verbessert werden. QM8700/8790+CX6 unterstützt nur bis zu 2 SATs, aber QM9700/9790+CX7 unterstützt bis zu 64. Die Anzahl der Stapelports nimmt zu, sodass die Anzahl der verwendeten Switches abnimmt.
Gemessen an den Schalterpreisen ist der Preis des QM9700 etwa doppelt so hoch wie der des QM8700/8790. Laut der offiziellen Website von SHI beträgt der Stückpreis des Quantum-2 QM9700 38,000 US-Dollar und der Stückpreis des Quantum QM8700/8790 23,000 bzw. 17,000 US-Dollar.
Wie ist der Status Quo des Switch-Marktes?
Der Switch-Markt boomt kurzfristig. Mit der Entwicklung der KI dürfte die Marktnachfrage weiter steigen und einen Trend zu High-End-Iterationen aufweisen.
Aus struktureller Sicht ist der Switch-Markt immer noch ein blauer Ozean, in dem Cisco einen großen Anteil hat und Arista schnell wächst.
In Bezug auf die Marktgröße: Im ersten Quartal 1 betrug der weltweite Umsatz mit Ethernet-Switches 2023 Milliarden US-Dollar, ein Anstieg von 10.021 % gegenüber dem Vorjahr. Der Umsatz mit 31.5G/200G-Switches stieg im Vergleich zum Vorjahr um 400 % und der Umsatz mit 41.3G-Switches stieg im Vergleich zum Vorjahr um 100 %.
In Bezug auf die Versandmenge der Ports: Im ersten Quartal 229 wurden 2023 Millionen Einheiten versendet, ein Anstieg von 14.8 % gegenüber dem Vorjahr. Die 200G/400G- und 100G-Ports legten um 224.2 % bzw. 17.0 % zu.
Die Wettbewerbslandschaft des Switches ist besser als auf dem Servermarkt. Laut theNextPlatform hatte Cisco im ersten Quartal 46 einen Marktanteil von 1 %, also etwa 2023 Milliarden US-Dollar, was einer Steigerung von 4.61 % gegenüber dem Vorjahr entspricht. Arista erzielte im ersten Quartal 33.7 einen Umsatz von 1.15 Milliarden US-Dollar, was einer Steigerung von 2023 % gegenüber dem Vorjahr entspricht, was seiner herausragenden Leistung im Rechenzentrum zu verdanken ist.
In Bezug auf die Rentabilität weisen Cisco und Arista beide Bruttomargen von fast 60 % auf. Das relativ günstige Umfeld hat den Herstellern in der Industriekette eine gute Rentabilität beschert. Obwohl die Bruttogewinnmargen von Cisco und Arista einen leichten Abwärtstrend gezeigt haben, halten sie insgesamt immer noch eine Bruttogewinnmarge von rund 60 %. Mit Blick auf die Zukunft glauben wir, dass der Switch-Markt voraussichtlich weiterhin von der Entwicklung der KI profitieren wird.
Ähnliche Produkte:
-
NVIDIA MMA4Z00-NS400 kompatibles 400G OSFP SR4 Flat Top PAM4 850 nm 30 m auf OM3/50 m auf OM4 MTP/MPO-12 Multimode FEC optisches Transceiver-Modul $550.00
-
NVIDIA MMA4Z00-NS-FLT-kompatibles 800 Gbit/s Twin-Port OSFP 2x400G SR8 PAM4 850 nm 100 m DOM Dual MPO-12 MMF optisches Transceiver-Modul $650.00
-
NVIDIA MMA4Z00-NS-kompatibles 800-Gbit/s-Twin-Port-OSFP-2x400G-SR8-PAM4-850-nm-100-m-DOM-Dual-MPO-12-MMF-optisches Transceiver-Modul $650.00
-
NVIDIA MMS4X00-NM-kompatibles 800-Gbit/s-Twin-Port-OSFP-2x400G-PAM4-1310-nm-500-m-DOM-Dual-MTP/MPO-12-SMF-Optisch-Transceiver-Modul $900.00
-
NVIDIA MMS4X00-NM-FLT-kompatibles 800G-Twin-Port-OSFP-2x400G-Flat-Top-PAM4-1310-nm-500-m-DOM-Dual-MTP/MPO-12-SMF-optisches Transceiver-Modul $1199.00
-
NVIDIA MMS4X00-NS400 kompatibles 400G OSFP DR4 Flat Top PAM4 1310 nm MTP/MPO-12 500 m SMF FEC optisches Transceiver-Modul $700.00
-
Mellanox MMA1T00-HS kompatibles 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 optisches Transceiver-Modul $139.00
-
NVIDIA MFP7E10-N010-kompatibel, 10 m (33 Fuß), 8 Fasern, geringe Einfügungsdämpfung, Buchse auf Buchse, MPO-Stammkabel, Polarität B, APC auf APC LSZH, Multimode OM3 50/125 $47.00
-
NVIDIA MCP7Y00-N003-FLT-kompatibler 3 m (10 Fuß) 800G Twin-Port OSFP zu 2x400G Flat Top OSFP InfiniBand NDR Breakout DAC $260.00
-
NVIDIA MCP7Y70-H002 kompatibles 2 m (7 Fuß) 400G Twin-Port 2x200G OSFP zu 4x100G QSFP56 Passives Breakout Direct Attach Kupferkabel $155.00
-
NVIDIA MCA4J80-N003-FTF-kompatibles 3 m (10 Fuß) 800G Twin-Port 2x400G OSFP zu 2x400G OSFP InfiniBand NDR Aktives Kupferkabel, flache Oberseite an einem Ende und gerippte Oberseite am anderen Ende $600.00
-
NVIDIA MCP7Y10-N002 kompatibler 2 m (7 Fuß) 800G InfiniBand NDR Twin-Port OSFP zu 2x400G QSFP112 Breakout DAC $190.00