FiberMall bietet End-to-End-InfiniBand-Lösungen

Nachdem ChatGPT im Technologiebereich explodierte, wurde diskutiert, was der „nächste Schritt“ der KI sein wird, und viele Wissenschaftler haben Multimodalität erwähnt. Kürzlich hat OpenAI das multimodale vortrainierte große Modell GPT-4 veröffentlicht. GPT-4 erreicht Sprünge und Grenzen in den folgenden Aspekten: leistungsstarke Grafikerkennung, Texteingabelimit auf 25,000 Wörter erhöht, deutliche Verbesserung der Antwortgenauigkeit, Fähigkeit, Liedtexte zu generieren, kreativer Text und Stiländerungen zu realisieren.

Solche effizienten Iterationen sind untrennbar mit dem Training von KI-Großmodellen verbunden, die große Rechenressourcen und Hochgeschwindigkeits-Datenübertragungsnetzwerke erfordern. Unter ihnen ist das End-to-End-IB-Netzwerk (InfiniBand) ein Hochleistungsrechennetzwerk, das sich besonders für Hochleistungsrechnen und KI-Modelltraining eignet. In diesem Dokument stellen wir vor, was AIGC-Modelltraining ist, warum ein End-to-End-IB-Netzwerk benötigt wird und wie das ChatGPT-Modell für das AIGC-Training verwendet wird.

Was ist AIGC?

AIGC, AI Generated Content, bezieht sich auf automatisch generierte Inhalte mit künstlicher Intelligenz, die zum Malen, Schreiben, Video und vielen anderen Arten der Inhaltserstellung verwendet werden können. 2022 AIGC entwickelt sich mit hoher Geschwindigkeit, was das Deep-Learning-Modell weiter verbessert, die Förderung des Open-Source-Modells und die Möglichkeit der Kommerzialisierung der Exploration großer Modelle, die zur Entwicklung der AIGC-„Beschleunigung“ wird. Nehmen Sie zum Beispiel ChatGPT, einen Chatbot, der Aufsätze schreiben, Romane und Code erstellen kann und erst seit 2 Monaten online ist und 100 Millionen monatliche Benutzer hat. Aufgrund seiner unerwarteten „Intelligenz“ gilt AIGC als „der nächste Disruptor der Technologiebranche“, „eine große Revolution in der Inhaltsproduktivität“.

AIGC

Large Language Model (LLM) und ChatGPT

Large Language Model ist eine Technologie der künstlichen Intelligenz, die natürliche Sprache erwerben und verstehen kann. Es basiert normalerweise auf Deep-Learning-Algorithmen, die große Mengen an Textdaten lernen, um sich sprachliches Wissen anzueignen, und natürliche Sprachtexte wie Konversationen, Artikel usw. generieren kann. ChatGPT ist ein auf einem großen Sprachmodell basierender Chatbot, der die GPT (Generative Pre -trainierter Transformer), der von OpenAI entwickelt wurde, um sprachlich ausdrucksstarken Text in natürlicher Sprache zu generieren und mit Benutzern zu interagieren, indem große Mengen von Textdaten vorab trainiert und optimiert werden. Somit kann man sagen, dass ChatGPT ein Chatbot ist, der auf einer großen Sprachmodellierungstechnologie basiert. Es nutzt die leistungsstarken Sprachverständnis- und Generierungsfunktionen großer Sprachmodelle und ermöglicht so das Generieren und Verstehen von Text in natürlicher Sprache in Gesprächen. Mit der Entwicklung von Deep-Learning-Techniken nehmen die Fähigkeiten und der Umfang großer Sprachmodelle weiter zu. Während die ursprünglichen Sprachmodelle (z. B. N-Gramm-Modelle) nur begrenzte Kontextinformationen berücksichtigen konnten, sind moderne große Sprachmodelle (z. B. BERT, GPT-3 usw.) in der Lage, viel längere Kontextinformationen zu berücksichtigen und haben stärkere Generalisierungs- und Generierungsfähigkeiten. Große Sprachmodelle werden normalerweise unter Verwendung von tiefen neuronalen Netzen trainiert, wie z. B. rekurrenten neuronalen Netzen (RNN), Lang- und Kurzzeitgedächtnis (LSTM), Gated Recurrent Units (GRU) und Transformer. Beim Training werden die Modelle unüberwacht oder halbüberwacht mit einem großen Textdatensatz trainiert. Beispielsweise werden BERT-Modelle durch Aufgaben wie Vorhersagemasken, nächste Sätze usw. trainiert, während GPT-3 einen groß angelegten selbstüberwachten Lernansatz verwendet. Umfangreiche Sprachmodelle haben ein breites Anwendungsspektrum im Bereich der Verarbeitung natürlicher Sprache, wie z. B. maschinelle Übersetzung, Generierung natürlicher Sprache, Frage-Antwort-Systeme, Textklassifizierung, Stimmungsanalyse usw.

Was sind die aktuellen Engpässe in der Ausbildung LLM?

Beim Trainieren großer Sprachmodelle werden zuverlässige Hochgeschwindigkeitsnetzwerke benötigt, um große Datenmengen zu übertragen. Beispielsweise hat OpenAI die erste Version des GPT-Modells (GPT-1) veröffentlicht, das eine Modellgröße von 117 Millionen Parametern hatte. Danach veröffentlichte OpenAI sukzessive größere Modelle wie GPT-2 und GPT-3 mit 150 Millionen bzw. 1.75 Billionen Parametern. Es ist völlig unmöglich, derart große Parameter auf einem einzelnen Computer zu trainieren, und erfordern eine hohe Abhängigkeit von GPU-Computing-Clustern. Der derzeitige Engpass liegt darin, wie das Problem der effizienten Kommunikation zwischen den Knoten im Trainingscluster gelöst werden kann.

Aktuelle Engpässe in der Ausbildung LLM

Einer der am häufigsten verwendeten GPU-Kommunikationsalgorithmen ist Ring-Allreduce, dessen Grundidee darin besteht, dass die GPUs einen Ring bilden und die Daten innerhalb des Rings fließen. Die GPUs im Ring sind in einer Logik angeordnet, bei der jede GPU einen linken und einen rechten Nachbarn hat und nur Daten an ihren rechten Nachbarn sendet und Daten von ihrem linken Nachbarn empfängt. Der Algorithmus geht in zwei Schritten vor: zuerst Scatter-Reduce und dann Allgather. Im Scatter-Reduktionsschritt tauschen die GPUs Daten aus, sodass jede GPU einen Block des Endergebnisses erhalten kann. Im Allgather-Schritt tauschen die GPUs diese Blöcke aus, sodass alle GPUs das vollständige Endergebnis erhalten.

Ring-Allreduce

In den frühen Tagen gab es kein NVLink innerhalb der einzelnen Maschine, kein RDMA im Netzwerk und die Bandbreite war relativ gering. Es gab keinen großen Unterschied in der Bandbreite zwischen der Einzelmaschinenverteilung und der Mehrmaschinenverteilung, also reichte es aus, einen großen Ring zu bilden. Aber jetzt, da wir NVLink innerhalb der einzelnen Maschine haben, ist es nicht angebracht, dieselbe Methode zu verwenden. Da die Bandbreite des Netzwerks viel geringer ist als die von NVLink, führt die erneute Verwendung eines großen Rings dazu, dass die hohe Bandbreite von NVLink ernsthaft auf die Ebene des Netzwerks heruntergezogen wird. Zweitens handelt es sich jetzt um eine Multi-NIC-Umgebung. Es ist auch unmöglich, mehrere Vorteile voll auszunutzen NICs wenn nur ein Ring verwendet wird. Daher wird in einem solchen Szenario ein zweistufiger Ring empfohlen. Erstens erfolgt die Datensynchronisierung zwischen GPUs innerhalb einer einzelnen Maschine, wobei der hohe Bandbreitenvorteil von NVLink genutzt wird. Dann verwenden die GPUs zwischen mehreren Maschinen mehrere NICs, um mehrere Ringe einzurichten, um Daten aus verschiedenen Segmenten zu synchronisieren. Schließlich werden die GPUs innerhalb der einzelnen Maschine noch einmal synchronisiert, wodurch die Datensynchronisierung aller GPUs endgültig abgeschlossen ist, und hier müssen wir NCCL erwähnen.

NCCL

Die NVIDIA Collective Communication Library (NCCL) implementiert Multi-GPU- und Multi-Node-Kommunikationsprimitive, die für NVIDIA-GPUs und -Netzwerke optimiert sind.

Multi-GPU-Multi-Knoten

1 GPU->Multi-GPU-Multi-Knoten

NCCL stellt Routinen für Gesamtsammlung, Gesamtverringerung, Rundsendung, Reduzierung, Reduzierung von Streuung und Punkt-zu-Punkt-Senden und -Empfangen bereit. Diese Routinen sind für hohe Bandbreite und niedrige Latenz durch In-Node- und NVIDIA Mellanox-Netzwerke über PCIe- und NVLink-Hochgeschwindigkeitsverbindungen optimiert.

Warum ein End-to-End-InfiniBand-Netzwerk verwenden?

Ethernet ist ein weit verbreitetes Netzwerkprotokoll, dessen Übertragungsrate und Latenzzeit jedoch nicht den Anforderungen für das Training großer Modelle genügen. Im Gegensatz dazu ist das End-to-End-InfiniBand-Netzwerk ein Hochleistungs-Computing-Netzwerk, das Übertragungsraten von bis zu 400 Gbit/s und Latenzzeiten im Mikrosekundenbereich liefern kann, was weit über der Leistung von Ethernet liegt. Dies macht InfiniBand-Netzwerke zur Netzwerktechnologie der Wahl für das groß angelegte Modelltraining. Darüber hinaus unterstützt das End-to-End-InfiniBand-Netzwerk Datenredundanz und Fehlerkorrekturmechanismen, die eine zuverlässige Datenübertragung gewährleisten. Dies ist besonders wichtig beim Modelltraining im großen Maßstab, da bei so vielen Daten Datenübertragungsfehler oder Datenverlust dazu führen können, dass der Trainingsprozess unterbrochen wird oder sogar fehlschlägt. Mit der dramatischen Zunahme der Anzahl von Netzwerkknoten und der steigenden Rechenleistung ist es für High Performance Computing wichtiger denn je, Leistungsengpässe zu beseitigen und das Systemmanagement zu verbessern. InfiniBand gilt als vielversprechende I/O-Technologie, die den Leistungsengpass aktueller I/O-Architekturen verbessern kann, wie in der Abbildung dargestellt. infiniBand ist ein allgegenwärtiges Interconnect-Kommunikationsprotokoll mit geringer Latenz und hoher Bandbreite und geringem Verarbeitungsaufwand, das sich ideal für die Übertragung mehrerer Verkehrstypen (Clustering, Kommunikation, Speicherung und Verwaltung) über eine einzige Verbindung eignet. 1999 entwickelte die IBTA (InfiniBand Trade Association) die InfiniBand-bezogenen Standards, die die Eingabe-/Ausgabearchitektur für miteinander verbundene Server, Kommunikationsinfrastrukturgeräte, Speicher und eingebettete Systeme in der InfiniBand™-Spezifikation definieren. InfiniBand ist eine ausgereifte, bewährte Technologie, die in Hochleistungs-Computing-Clustern weit verbreitet ist.

Architekturdiagramm der InfiniBand-Verbindung

Architekturdiagramm der InfiniBand-Verbindung

Gemäß dem InfiniBand-Verbindungsprotokoll muss jeder Knoten über einen Hostkanaladapter (HCA) verfügen, um Verbindungen mit Hostgeräten einzurichten und aufrechtzuerhalten. Switches enthalten mehrere Ports und leiten Datenpakete von einem Port zum anderen weiter, wodurch die Datenübertragung innerhalb von Subnetzen abgeschlossen wird.

Der Subnet Manager (SM) wird verwendet, um sein lokales Subnetz zu konfigurieren und seinen kontinuierlichen Betrieb mithilfe des Subnet Manager Packet (SMP) und des Subnet Manager Agent (SMA) auf jedem InfiniBand-Gerät sicherzustellen. Der Subnet Manager erkennt und initialisiert das Netzwerk, weist allen Geräten eindeutige Kennungen zu, bestimmt die MTU (Minimum Transmission Unit) und generiert Switch-Routing-Tabellen basierend auf ausgewählten Routing-Algorithmen. Der SM führt auch regelmäßige optische Scans des Subnetzes durch, um jede Topologie zu erkennen ändert und konfiguriert das Netzwerk entsprechend. InfiniBand-Netzwerke offEr bietet höhere Bandbreite, geringere Latenz und größere Skalierbarkeit als andere Netzwerkkommunikationsprotokolle. Da InfiniBand eine kreditbasierte Flusskontrolle bietet (bei der der Senderknoten nicht mehr Daten sendet als die Anzahl der im Empfangspuffer am anderen Ende der Verbindung angegebenen Kredite), benötigt die Transportschicht keinen Paketverlustmechanismus wie z den TCP-Fensteralgorithmus, um die optimale Anzahl von zu übertragenden Paketen zu bestimmen. Dadurch können InfiniBand-Netzwerke extrem hohe Datenübertragungsraten für Anwendungen mit sehr geringer Latenz und sehr geringer CPU-Auslastung liefern. InfiniBand überträgt Daten von einem Ende des Kanals zum anderen mit RDMA Technologie (Remote Direct Memory Access), ein Protokoll, das Daten ohne Beteiligung des Betriebssystems direkt zwischen Anwendungen über das Netzwerk überträgt und dabei auf beiden Seiten sehr geringe CPU-Ressourcen verbraucht (Zero-Copy-Transfer). Die Anwendung an einem Ende liest die Nachricht einfach direkt aus dem Speicher und die Nachricht wurde erfolgreich übertragen. Der reduzierte CPU-Overhead erhöht die Fähigkeit des Netzwerks, Daten schnell zu übertragen, und ermöglicht es Anwendungen, Daten schneller zu empfangen.

End-to-End-InfiniBand-Netzwerklösungen von FiberMall

FiberMall offist eine End-to-End-Lösung basierend auf NVIDIA Quantum-2-Switches, ConnectX InfiniBand-Smartcards und flexibel 400Gb / s InfiniBand, basierend auf unserem Verständnis von Hochgeschwindigkeits-Netzwerktrends und umfassender Erfahrung in HPC- und KI-Projektimplementierungen, um Kosten und Komplexität zu reduzieren und gleichzeitig eine überlegene Leistung in High Performance Computing (HPC), KI und Hyperscale-Cloud-Infrastruktur zu liefern und gleichzeitig Kosten und Komplexität zu reduzieren.

FiberMall Data Center InfiniBand-Netzwerklösungen

FiberMall Data Center InfiniBand-Netzwerklösungen

Hinterlasse einen Kommentar

Nach oben scrollen