FiberMall liefert HPC-Netzwerklösungen für AIGC

AIGC (AI-Generated Content) entwickelt sich in letzter Zeit rasant und die Iterationsrate explodiert exponentiell. Unter anderem hat die Einführung von GPT-4 und ERNIE Bot große Aufmerksamkeit auf seinen Geschäftswert und seine Anwendungsszenarien gelenkt. Mit der Entwicklung von AIGC ist die Skala der Trainingsmodellparameter von Hunderten von Milliarden auf Billionen von Ebenen gestiegen, und die Skala der zugrunde liegenden GPU-Unterstützung hat auch Billionen Kartenebenen erreicht. Die daraus resultierende Netzwerkskalierung nimmt stetig zu und die Kommunikation zwischen Netzwerkknoten steht vor immer größeren Herausforderungen. In diesem Zusammenhang ist die Verbesserung der Rechenleistung und der Netzwerkkommunikationsfähigkeit von KI-Servern unter Berücksichtigung der Kosten zu einer der wichtigen Forschungsrichtungen im aktuellen KI-Bereich geworden.

FiberMall hat die branchenweit fortschrittliche „Smart Speed“-DDC-Hochleistungsnetzwerklösung (Distributed Disaggregated Chassis) auf den Markt gebracht, um die Beziehung zwischen AIGC-Rechenleistung, GPU-Auslastung und Netzwerk sowie die Herausforderungen anzugehen, denen sich Mainstream-HPC-Netzwerke gegenübersehen, um AIGC Business Computing zu unterstützen Macht steigen.

Diagramm der DDC-Produktverbindung von FiberMall

Diagramm der DDC-Produktverbindung von FiberMall

Beziehung zwischen AIGC-Rechenleistung, GPU-Auslastung und Netzwerk

Beziehung zwischen Trainingszeit und GPU-Auslastung von ChatGPT

Am Beispiel von ChatGPT beträgt der gesamte arithmetische Stromverbrauch für das Training auf der Microsoft Azure KI-Supercomputing-Infrastruktur (ein Cluster mit hoher Bandbreite von 10,000 V 100-GPUs) in Bezug auf die Rechenleistung etwa 3,640 PF-Tage (eintausend Billionen Berechnungen pro Sekunde). , läuft für 3,640 Tage), hier ist eine Formel, um umzurechnen, wie lange es dauert, 10,000 V 100 zu trainieren.

ChatGPT-Rechenleistung und Trainingsplan

ChatGPT-Rechenleistung und Trainingsplan

Hinweis: Die Rechenleistungsanforderungen für ChatGPT sind online verfügbar und werden hier nur als Referenz bereitgestellt. Im Artikel „AI and Compute“ geht OpenAI von einer Auslastung von 33 % aus, während eine Gruppe von Forschern bei NVIDIA, Stanford und Microsoft Auslastungen von 44 % bis 52 % für das Training großer Sprachmodelle auf verteilten Systemen erreicht hat.

Es ist ersichtlich, dass die Hauptfaktoren, die die Trainingszeit eines Modells beeinflussen, die GPU-Auslastung und die Verarbeitungsleistung des GPU-Clusters sind. Diese Kennzahlen stehen wiederum in engem Zusammenhang mit der Netzwerkeffizienz. Die Netzwerkeffizienz ist ein wichtiger Faktor, der sich auf die GPU-Auslastung in KI-Clustern auswirkt. In KI-Clustern sind GPUs normalerweise die Kernressource von Rechenknoten, da sie umfangreiche Deep-Learning-Aufgaben effizient bewältigen können. Die GPU-Auslastung wird jedoch von mehreren Faktoren beeinflusst, unter denen die Netzwerkeffizienz ein Schlüsselfaktor ist.

Beziehung zwischen Netzwerkeffizienz und GPU-Auslastung

Das Netzwerk spielt eine entscheidende Rolle beim KI-Training, und KI-Cluster bestehen normalerweise aus mehreren Rechen- und Speicherknoten, die häufig kommunizieren und Daten austauschen müssen. Wenn das Netzwerk ineffizient ist, wird die Kommunikation zwischen diesen Knoten langsam, was sich direkt auf die Rechenleistung des KI-Clusters auswirkt.

Ineffiziente Netzwerke können zu den folgenden Problemen führen, die die GPU-Auslastung verringern können.

Erhöhte Datenübertragungszeit: In einem ineffizienten Netzwerk verlängert sich die Datenübertragungszeit. Die GPU-Auslastung nimmt ab, wenn GPUs warten müssen, bis die Datenübertragung abgeschlossen ist, bevor sie Berechnungen durchführen können.

Engpass bei der Netzwerkbandbreite: In einem KI-Cluster müssen GPUs normalerweise häufig Daten mit anderen Rechenknoten austauschen. Wenn die Netzwerkbandbreite nicht ausreicht, erhalten GPUs nicht genügend Daten für die Berechnung, was zu einer geringeren GPU-Auslastung führt.

Unausgeglichene AufgabenplanungHinweis: In einem ineffizienten Netzwerk können Aufgaben verschiedenen Rechenknoten von den GPUs zugewiesen werden. Dies kann dazu führen, dass die GPU im Leerlauf wartet, wenn eine große Menge an Datenübertragung erforderlich ist, wodurch die GPU-Auslastung verringert wird.

Um die GPU-Auslastung zu verbessern, muss die Netzwerkeffizienz optimiert werden. Dies kann erreicht werden, indem schnellere Netzwerktechniken verwendet werden, die Netzwerktopologie optimiert wird und die Bandbreitenzuweisung rationalisiert wird. Im Trainingsmodell bestimmt die Parallelität des verteilten Trainings: Datenparallelität, Tensorparallelität und Flussparallelität das Kommunikationsmodell zwischen den von GPUs verarbeiteten Daten. Die Effizienz der Kommunikation zwischen Modellen wird von mehreren Faktoren beeinflusst:

Faktoren, die die Kommunikation beeinflussen

Faktoren, die die Kommunikation beeinflussen

Unter anderem werden Bandbreite und Geräteweiterleitungslatenz durch Hardware begrenzt, Endverarbeitungslatenz wird durch die Wahl der Technologie (TCP oder RDMA) beeinflusst, RDMA niedriger sein, und Warteschlangen und erneute Übertragung werden durch Netzwerkoptimierung und Technologiewahl beeinflusst.

Basierend auf dem quantitativen Modell: GPU-Auslastung = iterative Rechenzeit innerhalb der GPU / (iterative Rechenzeit innerhalb der GPU + gesamte Netzwerkkommunikationszeit) werden die folgenden Schlussfolgerungen gezogen:

Diagramm des Bandbreitendurchsatzes und der GPU-Auslastung

Diagramm des Bandbreitendurchsatzes und der GPU-Auslastung                        Diagramm der dynamischen Latenz und GPU-Auslastung

Es ist ersichtlich, dass der Durchsatz der Netzwerkbandbreite und die dynamische Latenz (Überlastung/Paketverlust) einen erheblichen Einfluss auf die GPU-Auslastung haben.

Basierend auf der Zusammensetzung der gesamten Kommunikationslatenz:

Zusammensetzung der gesamten Kommunikationslatenz

Zusammensetzung der gesamten Kommunikationslatenz

Die statische Latenz hat einen geringeren Einfluss, daher ist es wichtiger, sich darauf zu konzentrieren, wie die dynamische Latenz verringert werden kann, wodurch die Auslastung der GPU effektiv verbessert werden kann, um das Ziel der Verbesserung der Rechenleistung zu erreichen.

Die Herausforderungen des Mainstream-HPC-Networking

IB Networking ist teuer und geschlossen

Unendlich Networking ist die effektivste Lösung für aktuelle Hochleistungsnetzwerke, die eine ultrahohe Bandbreite und kreditbasierte Mechanismen verwendet, um eine Überlastung und eine extrem niedrige Latenz zu gewährleisten, aber es ist auch die teuerste Lösung. Es ist auch die teuerste Lösung. Es ist um ein Vielfaches teurer als herkömmliche Ethernet-Netzwerke mit der gleichen Bandbreite. Gleichzeitig, Unendlich Technologie ist geschlossen, und es gibt nur einen ausgereiften Anbieter in der Branche, was es Endverbrauchern unmöglich macht, eine zweite Bezugsquelle zu erreichen.

Daher entscheiden sich die meisten Benutzer in der Branche für die traditionelle Ethernet-Netzwerklösung.

PFC und ECN können einen Geschwindigkeitsabfall auslösen

Die aktuelle Mainstream-Netzwerklösung für Hochleistungsnetzwerke basiert auf RoCE v2, um RDMA-fähige Netzwerke aufzubauen. Zwei wichtige Kollokationstechnologien sind PFC und ECN, die beide geschaffen wurden, um eine Überlastung der Verbindung zu vermeiden.

Bei einem mehrstufigen PFC-Networking zielt es darauf ab, die Switch-Ingress-Überlastung und den Gegendruck auf den Quellserver zu richten, um die Übertragung Schritt für Schritt auszusetzen, um Netzwerküberlastungen zu beseitigen und Paketverluste zu vermeiden. Bei dieser Lösung besteht jedoch möglicherweise das Risiko eines PFC-Deadlocks, der dazu führt, dass der RDMA-Datenverkehr die Weiterleitung unter mehrstufigen Netzwerken stoppt.

Schematische Darstellung des PFC-Arbeitsmechanismus

Schematische Darstellung des PFC-Arbeitsmechanismus

Während ECN ein RoCEv2-CNP-Paket direkt generiert, um die Quelle über die Geschwindigkeitsreduzierung basierend auf dem zielseitigen Bewusstsein der Überlastung am Switch-Ausgang zu benachrichtigen, empfängt der Quellserver die CNP-Nachricht und reduziert präzise die Senderate des entsprechenden QP, um die Überlastung zu verringern und gleichzeitig zu vermeiden willkürliche Geschwindigkeitsreduzierung.

Schematische Darstellung von ECN

Schematische Darstellung von ECN

Diese beiden Technologien sind darauf ausgelegt, Überlastungen zu lösen, können jedoch häufig durch mögliche Überlastungen im Netzwerk ausgelöst werden. Schließlich wird das Quellenende die Übertragungsgeschwindigkeit anhalten oder verlangsamen, und die Kommunikationsbandbreite wird reduziert. Die GPU-Auslastung wird stark beeinträchtigt, was die Rechenleistung des gesamten Hochleistungsnetzwerks reduziert.

Ein unausgeglichener ECMP kann eine Überlastung verursachen

Bei der KI-Trainingsberechnung gibt es zwei Hauptmodelle, All-Reduce und All-to-All, die beide eine häufige Kommunikation von einer GPU zu mehreren GPUs erfordern.

KI-Trainingsberechnungsmodelle

KI-Trainingsberechnungsmodelle

In traditionellen Netzwerken übernehmen ToR- und Leaf-Geräte den Routing-+ECMP-Netzwerkmodus. ECMP führt Hash-Load-Routing basierend auf Streams durch. Im Extremfall ist eine ECMP-Verbindung aufgrund eines Elefantenstroms voll, während andere ECMP-Verbindungen relativ untätig sind, was zu einer ungleichmäßigen Last führt.

Traditionelles ECMP-Bereitstellungsdiagramm

Traditionelles ECMP-Bereitstellungsdiagramm

In einer intern simulierten Testumgebung mit 8 ECMP-Links sehen die Testergebnisse wie folgt aus:

ECMP-Traffic-Testergebnisse

ECMP-Traffic-Testergebnisse

Wie ersichtlich ist, verursacht flussbasiertes ECMP eine offensichtlichere Belegung bestimmter Verbindungen (ECMP1-5 und 1-6) und Leerlauf (ECMP1-0 bis 1-3 sind im Leerlauf). Sowohl in All-Reduce- als auch in All-to-All-Modellen kann eine Route aufgrund ungleichmäßiger Last auf ECMP leicht überlastet werden. Sobald die Überlastung eine erneute Übertragung verursacht, erhöht sie die gesamte Gesamtkommunikationslatenz und verringert die GPU-Auslastung.

Daher hat die Forschungsgemeinschaft reichhaltige Lösungen wie Phost, Homa, NDP, 1RMA und Aeolus vorgeschlagen. Sie adressieren Incast in unterschiedlichem Maße und adressieren auch Lastausgleich und Anforderungs-/Antwortverkehr mit geringer Latenz. Sie bringen aber auch neue Herausforderungen mit sich. Oft erfordern diese untersuchten Lösungen eine End-to-End-Problemlösung mit großen Änderungen an Hosts, NICs und Netzwerken, was für den durchschnittlichen Benutzer kostspielig ist.

Herausforderungen beim KI-Clustering mit Box-Switches

Einige Internetunternehmen suchen nach Box-Switches mit DNX-Chips, die die VOQ-Technologie unterstützen, um das Problem der geringen Bandbreitenauslastung aufgrund von Lastungleichgewichten zu lösen, aber sie stehen auch vor mehreren Herausforderungen wie den folgenden.

Durchschnittliche Skalierbarkeit. Die Frame-Größe begrenzt die maximale Anzahl von Ports. Wenn Sie einen größeren Cluster erstellen möchten, müssen Sie mehrere Frames horizontal erweitern, wodurch auch mehrstufige PFC- und ECMP-Links generiert werden. Der Rahmen ist also nur für den Einsatz im kleinen Maßstab geeignet.

Großer Stromverbrauch des Geräts. Die Anzahl der Linecard-Chips, Fabric-Chips, Lüfter usw. im Rahmen ist groß, und die Leistungsaufnahme der einzelnen Geräte ist groß, leicht mehr als 20,000 Watt, einige sogar mehr als 30,000 Watt, mit hohen Leistungsanforderungen für das Gehäuse .

Die Anzahl der einzelnen Geräteports ist groß und die Fehlerdomäne ist groß.

Aus den oben genannten Gründen sind Box-Geräte also nur für den Einsatz von KI-Computing-Clustern im kleinen Maßstab geeignet.

DDC-Produkte zur Unterstützung von AIGC

DDC ist eine verteilte, entkoppelte Frame-Gerätelösung, die fast die gleichen Chip- und Schlüsseltechnologien wie herkömmliche Frame-Switches verwendet, aber die DDC-Architektur ist einfach, um elastische Erweiterung und schnelle Iteration von Funktionen zu unterstützen, einfacher bereitzustellen und geringer Stromverbrauch pro Maschine.

Wie in der Abbildung unten gezeigt, wird die Service-Linecard als Front-End zur NCP-Rolle und die Vermittlungsstelle als Back-End zur NCF-Rolle. Die ursprünglichen Verbindungskomponenten zwischen den beiden werden nun durch Glasfaserkabel ersetzt, und die Verwaltungsmaschine des ursprünglichen Rahmengeräts wird zur zentralisierten/verteilten Verwaltungskomponente des NCC in der DDC-Architektur.

Konnektivitätsdiagramm für DDC-Produkte

Konnektivitätsdiagramm für DDC-Produkte

DDC unterstützt den Einsatz in sehr großem Umfang

Der Vorteil der DDC-Architektur gegenüber der Box-Architektur besteht darin, dass sie eine flexible Skalierbarkeit bieten kann und die Netzwerkskalierung entsprechend der Größe des KI-Clusters flexibel ausgewählt werden kann.

Im einzelnen POD-Netzwerk werden 96 NCPs als Zugänge verwendet, von denen 36 200G-Schnittstellen im Downlink von NCPs für die Verbindung von NICs von KI-Rechenclustern verantwortlich sind. Die vorgelagerten insgesamt 40 200G-Schnittstellen kann 40 NCFs verbinden, NCF bietet 96 200G-Schnittstellen und die Upstream- und Downstream-Bandbreite dieser Skala beträgt 1.1:1. Der gesamte POD kann 3456 200G-Netzwerkschnittstellen unterstützen, und gemäß der Berechnung eines Servers mit 8 GPUs können 432 AI-Computing-Server unterstützt werden.

Diagramm der Architektur eines einzelnen POD-Netzwerks

Diagramm der Architektur eines einzelnen POD-Netzwerks

Bei mehrstufiger POD-Vernetzung kann eine auf POD basierende On-Demand-Konstruktion realisiert werden. Da das NCF-Equipment in diesem Szenario POD die Hälfte der SerDes für die Anbindung des NCF der zweiten Ebene opfern muss, verwendet der einzelne POD zu diesem Zeitpunkt 48 NCPs als Zugang, mit insgesamt 36 200G-Schnittstellen im Downlink, und kann unterstützt 1728 200G-Schnittstellen in einem einzigen POD. Durch die horizontale Erhöhung des POD zur Realisierung der Skalierungserweiterung kann das Gesamtmaximum mehr als 10,368 200G-Netzwerkports unterstützen.

NCP-Uplink 40 200G zu 40 NCFs in POD, NCFs in POD verwenden 48 200G-Schnittstellen nachgelagert, und 48 200G-Schnittstellen sind in 16 Gruppen unterteilt, um eine Aufwärtsverbindung zu NCFs in der zweiten Ebene herzustellen. 40 Ebenen werden für NCFs in der zweiten Ebene verwendet, und jede Ebene ist mit 3 Einheiten ausgelegt, was 40 NCFs in POD entspricht.

Das gesamte Netzwerk erreicht innerhalb des POD ein Overdrive-Verhältnis von 1:1:1 und zwischen dem POD und dem NCF der zweiten Stufe ein Konvergenzverhältnis von 1:1.

übersteuern

Der 200G-Netzwerkanschluss ist kompatibel mit 100G-NIC Zugang, und in besonderen Fällen ist es mit 25/50G NIC mit 1-in-2- oder 1-in-4-Kabeln kompatibel.

Ausgeglichenere Last basierend auf VOQ+Cell-Mechanismus, geringere Paketverlustrate

Indem es sich auf den Cells-Weiterleitungsmechanismus nach dem Splitten für den dynamischen Lastausgleich verlässt, realisiert es die Stabilität der Verzögerung und reduziert die Bandbreiten-Spitzendifferenz verschiedener Verbindungen.

Der Weiterleitungsprozess ist in der Abbildung dargestellt:

Zuerst empfängt der Sender Pakete vom Netzwerk und sortiert sie zur Speicherung in VOQs. Vor dem Senden der Pakete wird eine Credit-Nachricht gesendet, um festzustellen, ob der Empfänger über genügend Cache-Speicherplatz verfügt, um sie zu verarbeiten.

Wenn dies der Fall ist, werden die Pakete in Zellen aufgeteilt und dynamisch auf zwischengeschaltete Fabric-Knoten verteilt. Diese Zellen werden am empfangenden Ende wieder zusammengesetzt und gespeichert und dann an das Netzwerk weitergeleitet.

Weiterleitungsprozess

Zellen sind paketbasierte Slicing-Techniken mit einer Größe von typischerweise 64–256 Bytes.

Die aufgeteilten Zellen werden gemäß der Zellzielabfrage in der Erreichbarkeitstabelle weitergeleitet und unter Verwendung eines Abfragemechanismus gesendet. Der Vorteil davon besteht darin, dass die Last der geschnittenen Zellen für jeden Uplink vollständig genutzt wird und die auf allen Uplinks übertragene Datenmenge ungefähr gleich ist, verglichen mit dem ECMP-Modus, bei dem ein bestimmter Pfad nach dem Hashing nach Fluss ausgewählt wird.

Zellbasiert

Wenn der Empfänger vorübergehend nicht in der Lage ist, die Nachricht zu verarbeiten, wird die Nachricht vorübergehend im VOQ auf der Senderseite gespeichert und nicht direkt an die Empfängerseite weitergeleitet, was zu einem Paketverlust führt. Jeder DNX-Chip kann einen On-Chip-OCB-Cache und einen off-Chip 8 GB HBM-Cache, was dem Caching von etwa 150 ms Daten für einen 200G-Port entspricht. Gutschriften werden nur gesendet, wenn sie am anderen Ende eindeutig akzeptabel sind. Mit einem solchen Mechanismus kann die vollständige Nutzung des Caches den Paketverlust erheblich reduzieren oder sogar keinen Paketverlust erzeugen. Mit weniger erneuter Datenübertragung ist die Gesamtkommunikationslatenz stabiler und geringer, wodurch die Bandbreitennutzung verbessert werden kann und somit die Dienstdurchsatzeffizienz verbessert werden kann.

kreditbasiertes Gewebe

Kein Deadlock unter PFC-Single-Hop-Bereitstellung

Gemäß der Logik von DDC können alle NCPs und NCFs als ein Gerät betrachtet werden. Daher gibt es nach der Bereitstellung der RDMA-Domäne in diesem Netzwerk nur 1 PFC-Ebene an der Schnittstelle, die auf den Server abzielt, wodurch keine mehrstufige PFC-Unterdrückung und kein Deadlock wie in herkömmlichen Netzwerken erzeugt wird. Darüber hinaus kann ECN gemäß dem Datenweiterleitungsmechanismus von DDC an der Schnittstelle bereitgestellt werden, und sobald der interne Credit- und Cache-Mechanismus den Burst-Datenverkehr nicht unterstützen kann, können CNP-Nachrichten an die Serverseite gesendet werden, um eine Geschwindigkeitsreduzierung anzufordern (normalerweise unter Das Kommunikationsmodell von AI, All-to-All und All-Reduce+Cell Slicing kann den Datenverkehr so ​​weit wie möglich ausgleichen und ist schwierig zu haben (1 Port ist belegt, sodass ECN in den meisten Fällen nicht konfiguriert werden kann).

Kein Deadlock bei PFC-Single-Hop-Bereitstellung

NCC-freies Design mit verteiltem Betriebssystem zur Verbesserung der Zuverlässigkeit

Auf der Verwaltungs- und Steuerungsebene eliminieren wir die zentralisierte Steuerungsebene von NCC und bauen ein verteiltes Betriebssystem auf, um die Auswirkungen des Ausfalls des Verwaltungsnetzwerks und des Single Point of Failure von NCC zu lösen und Verwaltungsgeräte über Standardschnittstellen (Netconf, GRPC, usw.) durch SDN-Betriebs- und Wartungscontroller, und jeder NCP und NCF wird unabhängig mit unabhängigen Steuerungs- und Verwaltungsebenen verwaltet.

Testvergleichsergebnisse

Aus theoretischer Sicht hat DDC viele Vorteile, wie z. B. die Unterstützung einer elastischen Expansion und eine schnelle Iteration von Funktionen, eine einfachere Bereitstellung und einen geringen Stromverbrauch einer einzelnen Maschine; Aus praktischer Sicht hat traditionelles Networking jedoch auch Vorteile, wie z. B. mehr Marken und Produktlinien, die auf dem Markt verfügbar sind, und kann Cluster in größerem Maßstab und andere Vorteile unterstützen, die durch ausgereifte Technologie gebracht werden. Wenn Kunden daher mit Projektanforderungen konfrontiert werden, können sie sich auf die folgenden Vergleichs- und Testergebnisse beziehen, um zu entscheiden, ob sie sich für eine DDC mit höherer Leistung oder ein herkömmliches Netzwerk für eine größere Bereitstellung entscheiden sollten:

Vergleichsergebnis zwischen traditionellem Networking und DDC-Test

Vergleichsergebnis zwischen traditionellem Networking und DDC-Test

Einführung in die FiberMall-Ausrüstung

Basierend auf dem tiefen Verständnis der Kundenbedürfnisse war FiberMall das erste Unternehmen, das zwei lieferbare Produkte auf den Markt brachte, den 200G-NCP-Switch und den 200G-NCF-Switch.

NCP: Schalter FM-S6930-36DC40F1

Dieser Switch ist 2U hoch und bietet 36 200G-Panel-Ports, 40 200G-Fabric-Inline-Ports, 4 Lüfter und 2 Netzteile.

NCP FM-S6930-36DC40F1 Schalter

NCF: Schalter FM-X56-96F1

Dieser Switch ist 4U hoch und bietet 96 200G-Inline-Ports, 8 Lüfter und 4 Netzteile.

NCF FM-X56-96F1 Schalter

FiberMall wird auch in Zukunft Produkte mit 400G-Port-Formfaktor entwickeln und auf den Markt bringen.

Zusammenfassung

FiberMall hat sich als Branchenführer verpflichtet, qualitativ hochwertige, hochzuverlässige Netzwerkgeräte und -lösungen bereitzustellen, um die steigende Nachfrage der Kunden nach Smart Computing Centern zu erfüllen. Während der Einführung der DDC-Lösung „Smart Speed“ erforscht und entwickelt FiberMall auch aktiv Lösungen zur Endnetzwerkoptimierung in traditionellen Netzwerken. Durch die vollständige Nutzung intelligenter Server-NICs und der Protokolloptimierung von Netzwerkgeräten kann die gesamte Bandbreitenauslastung des Netzwerks verbessert werden, um Kunden dabei zu helfen, das AIGC-Smart-Computing-Zeitalter schneller einzuleiten.

Hinterlasse einen Kommentar

Nach oben scrollen