Nachdem ChatGPT im Technologiebereich explodierte, wurde diskutiert, was der „nächste Schritt“ der KI sein wird, und viele Wissenschaftler haben Multimodalität erwähnt. Kürzlich hat OpenAI das multimodale vortrainierte große Modell GPT-4 veröffentlicht. GPT-4 erreicht Sprünge und Grenzen in den folgenden Aspekten: leistungsstarke Grafikerkennung, Texteingabelimit auf 25,000 Wörter erhöht, deutliche Verbesserung der Antwortgenauigkeit, Fähigkeit, Liedtexte zu generieren, kreativer Text und Stiländerungen zu realisieren.
Solche effizienten Iterationen sind untrennbar mit dem Training von KI-Großmodellen verbunden, die große Rechenressourcen und Hochgeschwindigkeits-Datenübertragungsnetzwerke erfordern. Unter ihnen ist das End-to-End-IB-Netzwerk (InfiniBand) ein Hochleistungsrechennetzwerk, das sich besonders für Hochleistungsrechnen und KI-Modelltraining eignet. In diesem Dokument stellen wir vor, was AIGC-Modelltraining ist, warum ein End-to-End-IB-Netzwerk benötigt wird und wie das ChatGPT-Modell für das AIGC-Training verwendet wird.
Was ist AIGC?
AIGC, AI Generated Content, bezieht sich auf automatisch generierte Inhalte mit künstlicher Intelligenz, die zum Malen, Schreiben, Video und vielen anderen Arten der Inhaltserstellung verwendet werden können. 2022 AIGC entwickelt sich mit hoher Geschwindigkeit, was das Deep-Learning-Modell weiter verbessert, die Förderung des Open-Source-Modells und die Möglichkeit der Kommerzialisierung der Exploration großer Modelle, die zur Entwicklung der AIGC-„Beschleunigung“ wird. Nehmen Sie zum Beispiel ChatGPT, einen Chatbot, der Aufsätze schreiben, Romane und Code erstellen kann und erst seit 2 Monaten online ist und 100 Millionen monatliche Benutzer hat. Aufgrund seiner unerwarteten „Intelligenz“ gilt AIGC als „der nächste Disruptor der Technologiebranche“, „eine große Revolution in der Inhaltsproduktivität“.
Large Language Model (LLM) und ChatGPT
Large Language Model ist eine Technologie der künstlichen Intelligenz, die natürliche Sprache erwerben und verstehen kann. Es basiert normalerweise auf Deep-Learning-Algorithmen, die große Mengen an Textdaten lernen, um sich sprachliches Wissen anzueignen, und natürliche Sprachtexte wie Konversationen, Artikel usw. generieren kann. ChatGPT ist ein auf einem großen Sprachmodell basierender Chatbot, der die GPT (Generative Pre -trainierter Transformer), der von OpenAI entwickelt wurde, um sprachlich ausdrucksstarken Text in natürlicher Sprache zu generieren und mit Benutzern zu interagieren, indem große Mengen von Textdaten vorab trainiert und optimiert werden. Somit kann man sagen, dass ChatGPT ein Chatbot ist, der auf einer großen Sprachmodellierungstechnologie basiert. Es nutzt die leistungsstarken Sprachverständnis- und Generierungsfunktionen großer Sprachmodelle und ermöglicht so das Generieren und Verstehen von Text in natürlicher Sprache in Gesprächen. Mit der Entwicklung von Deep-Learning-Techniken nehmen die Fähigkeiten und der Umfang großer Sprachmodelle weiter zu. Während die ursprünglichen Sprachmodelle (z. B. N-Gramm-Modelle) nur begrenzte Kontextinformationen berücksichtigen konnten, sind moderne große Sprachmodelle (z. B. BERT, GPT-3 usw.) in der Lage, viel längere Kontextinformationen zu berücksichtigen und haben stärkere Generalisierungs- und Generierungsfähigkeiten. Große Sprachmodelle werden normalerweise unter Verwendung von tiefen neuronalen Netzen trainiert, wie z. B. rekurrenten neuronalen Netzen (RNN), Lang- und Kurzzeitgedächtnis (LSTM), Gated Recurrent Units (GRU) und Transformer. Beim Training werden die Modelle unüberwacht oder halbüberwacht mit einem großen Textdatensatz trainiert. Beispielsweise werden BERT-Modelle durch Aufgaben wie Vorhersagemasken, nächste Sätze usw. trainiert, während GPT-3 einen groß angelegten selbstüberwachten Lernansatz verwendet. Umfangreiche Sprachmodelle haben ein breites Anwendungsspektrum im Bereich der Verarbeitung natürlicher Sprache, wie z. B. maschinelle Übersetzung, Generierung natürlicher Sprache, Frage-Antwort-Systeme, Textklassifizierung, Stimmungsanalyse usw.
Was sind die aktuellen Engpässe in der Ausbildung LLM?
Beim Trainieren großer Sprachmodelle werden zuverlässige Hochgeschwindigkeitsnetzwerke benötigt, um große Datenmengen zu übertragen. Beispielsweise hat OpenAI die erste Version des GPT-Modells (GPT-1) veröffentlicht, das eine Modellgröße von 117 Millionen Parametern hatte. Danach veröffentlichte OpenAI sukzessive größere Modelle wie GPT-2 und GPT-3 mit 150 Millionen bzw. 1.75 Billionen Parametern. Es ist völlig unmöglich, derart große Parameter auf einem einzelnen Computer zu trainieren, und erfordern eine hohe Abhängigkeit von GPU-Computing-Clustern. Der derzeitige Engpass liegt darin, wie das Problem der effizienten Kommunikation zwischen den Knoten im Trainingscluster gelöst werden kann.
Einer der am häufigsten verwendeten GPU-Kommunikationsalgorithmen ist Ring-Allreduce, dessen Grundidee darin besteht, dass die GPUs einen Ring bilden und die Daten innerhalb des Rings fließen. Die GPUs im Ring sind in einer Logik angeordnet, bei der jede GPU einen linken und einen rechten Nachbarn hat und nur Daten an ihren rechten Nachbarn sendet und Daten von ihrem linken Nachbarn empfängt. Der Algorithmus geht in zwei Schritten vor: zuerst Scatter-Reduce und dann Allgather. Im Scatter-Reduktionsschritt tauschen die GPUs Daten aus, sodass jede GPU einen Block des Endergebnisses erhalten kann. Im Allgather-Schritt tauschen die GPUs diese Blöcke aus, sodass alle GPUs das vollständige Endergebnis erhalten.
In den frühen Tagen gab es kein NVLink innerhalb der einzelnen Maschine, kein RDMA im Netzwerk und die Bandbreite war relativ gering. Es gab keinen großen Unterschied in der Bandbreite zwischen der Einzelmaschinenverteilung und der Mehrmaschinenverteilung, also reichte es aus, einen großen Ring zu bilden. Aber jetzt, da wir NVLink innerhalb der einzelnen Maschine haben, ist es nicht angebracht, dieselbe Methode zu verwenden. Da die Bandbreite des Netzwerks viel geringer ist als die von NVLink, führt die erneute Verwendung eines großen Rings dazu, dass die hohe Bandbreite von NVLink ernsthaft auf die Ebene des Netzwerks heruntergezogen wird. Zweitens handelt es sich jetzt um eine Multi-NIC-Umgebung. Es ist auch unmöglich, mehrere Vorteile voll auszunutzen NICs wenn nur ein Ring verwendet wird. Daher wird in einem solchen Szenario ein zweistufiger Ring empfohlen. Erstens erfolgt die Datensynchronisierung zwischen GPUs innerhalb einer einzelnen Maschine, wobei der hohe Bandbreitenvorteil von NVLink genutzt wird. Dann verwenden die GPUs zwischen mehreren Maschinen mehrere NICs, um mehrere Ringe einzurichten, um Daten aus verschiedenen Segmenten zu synchronisieren. Schließlich werden die GPUs innerhalb der einzelnen Maschine noch einmal synchronisiert, wodurch die Datensynchronisierung aller GPUs endgültig abgeschlossen ist, und hier müssen wir NCCL erwähnen.
Die NVIDIA Collective Communication Library (NCCL) implementiert Multi-GPU- und Multi-Node-Kommunikationsprimitive, die für NVIDIA-GPUs und -Netzwerke optimiert sind.
1 GPU->Multi-GPU-Multi-Knoten
NCCL stellt Routinen für Gesamtsammlung, Gesamtverringerung, Rundsendung, Reduzierung, Reduzierung von Streuung und Punkt-zu-Punkt-Senden und -Empfangen bereit. Diese Routinen sind für hohe Bandbreite und niedrige Latenz durch In-Node- und NVIDIA Mellanox-Netzwerke über PCIe- und NVLink-Hochgeschwindigkeitsverbindungen optimiert.
Warum ein End-to-End-InfiniBand-Netzwerk verwenden?
Ethernet ist ein weit verbreitetes Netzwerkprotokoll, dessen Übertragungsrate und Latenzzeit jedoch nicht den Anforderungen für das Training großer Modelle genügen. Im Gegensatz dazu ist das End-to-End-InfiniBand-Netzwerk ein Hochleistungs-Computing-Netzwerk, das Übertragungsraten von bis zu 400 Gbit/s und Latenzzeiten im Mikrosekundenbereich liefern kann, was weit über der Leistung von Ethernet liegt. Dies macht InfiniBand-Netzwerke zur Netzwerktechnologie der Wahl für das groß angelegte Modelltraining. Darüber hinaus unterstützt das End-to-End-InfiniBand-Netzwerk Datenredundanz und Fehlerkorrekturmechanismen, die eine zuverlässige Datenübertragung gewährleisten. Dies ist besonders wichtig beim Modelltraining im großen Maßstab, da bei so vielen Daten Datenübertragungsfehler oder Datenverlust dazu führen können, dass der Trainingsprozess unterbrochen wird oder sogar fehlschlägt. Mit der dramatischen Zunahme der Anzahl von Netzwerkknoten und der steigenden Rechenleistung ist es für High Performance Computing wichtiger denn je, Leistungsengpässe zu beseitigen und das Systemmanagement zu verbessern. InfiniBand gilt als vielversprechende I/O-Technologie, die den Leistungsengpass aktueller I/O-Architekturen verbessern kann, wie in der Abbildung dargestellt. infiniBand ist ein allgegenwärtiges Interconnect-Kommunikationsprotokoll mit geringer Latenz und hoher Bandbreite und geringem Verarbeitungsaufwand, das sich ideal für die Übertragung mehrerer Verkehrstypen (Clustering, Kommunikation, Speicherung und Verwaltung) über eine einzige Verbindung eignet. 1999 entwickelte die IBTA (InfiniBand Trade Association) die InfiniBand-bezogenen Standards, die die Eingabe-/Ausgabearchitektur für miteinander verbundene Server, Kommunikationsinfrastrukturgeräte, Speicher und eingebettete Systeme in der InfiniBand™-Spezifikation definieren. InfiniBand ist eine ausgereifte, bewährte Technologie, die in Hochleistungs-Computing-Clustern weit verbreitet ist.
Architekturdiagramm der InfiniBand-Verbindung
Gemäß dem InfiniBand-Verbindungsprotokoll muss jeder Knoten über einen Hostkanaladapter (HCA) verfügen, um Verbindungen mit Hostgeräten einzurichten und aufrechtzuerhalten. Switches enthalten mehrere Ports und leiten Datenpakete von einem Port zum anderen weiter, wodurch die Datenübertragung innerhalb von Subnetzen abgeschlossen wird.
Der Subnet Manager (SM) wird verwendet, um sein lokales Subnetz zu konfigurieren und seinen kontinuierlichen Betrieb mithilfe des Subnet Manager Packet (SMP) und des Subnet Manager Agent (SMA) auf jedem InfiniBand-Gerät sicherzustellen. Der Subnet Manager erkennt und initialisiert das Netzwerk, weist allen Geräten eindeutige Kennungen zu, bestimmt die MTU (Minimum Transmission Unit) und generiert Switch-Routing-Tabellen basierend auf ausgewählten Routing-Algorithmen. Der SM führt auch regelmäßige optische Scans des Subnetzes durch, um jede Topologie zu erkennen ändert und konfiguriert das Netzwerk entsprechend. InfiniBand-Netzwerke offEr bietet höhere Bandbreite, geringere Latenz und größere Skalierbarkeit als andere Netzwerkkommunikationsprotokolle. Da InfiniBand eine kreditbasierte Flusskontrolle bietet (bei der der Senderknoten nicht mehr Daten sendet als die Anzahl der im Empfangspuffer am anderen Ende der Verbindung angegebenen Kredite), benötigt die Transportschicht keinen Paketverlustmechanismus wie z den TCP-Fensteralgorithmus, um die optimale Anzahl von zu übertragenden Paketen zu bestimmen. Dadurch können InfiniBand-Netzwerke extrem hohe Datenübertragungsraten für Anwendungen mit sehr geringer Latenz und sehr geringer CPU-Auslastung liefern. InfiniBand überträgt Daten von einem Ende des Kanals zum anderen mit RDMA Technologie (Remote Direct Memory Access), ein Protokoll, das Daten ohne Beteiligung des Betriebssystems direkt zwischen Anwendungen über das Netzwerk überträgt und dabei auf beiden Seiten sehr geringe CPU-Ressourcen verbraucht (Zero-Copy-Transfer). Die Anwendung an einem Ende liest die Nachricht einfach direkt aus dem Speicher und die Nachricht wurde erfolgreich übertragen. Der reduzierte CPU-Overhead erhöht die Fähigkeit des Netzwerks, Daten schnell zu übertragen, und ermöglicht es Anwendungen, Daten schneller zu empfangen.
End-to-End-InfiniBand-Netzwerklösungen von FiberMall
FiberMall offist eine End-to-End-Lösung basierend auf NVIDIA Quantum-2-Switches, ConnectX InfiniBand-Smartcards und flexibel 400Gb / s InfiniBand, basierend auf unserem Verständnis von Hochgeschwindigkeits-Netzwerktrends und umfassender Erfahrung in HPC- und KI-Projektimplementierungen, um Kosten und Komplexität zu reduzieren und gleichzeitig eine überlegene Leistung in High Performance Computing (HPC), KI und Hyperscale-Cloud-Infrastruktur zu liefern und gleichzeitig Kosten und Komplexität zu reduzieren.
FiberMall Data Center InfiniBand-Netzwerklösungen
Ähnliche Produkte:
- Mellanox QMMA1U00-WS Kompatibles 400G QSFP-DD SR8 PAM4 850nm 100m MTP/MPO OM3 FEC Optisches Transceivermodul $300.00
- Mellanox MMS1V00-WM-kompatibles 400G QSFP-DD DR4 PAM4 1310nm 500m MTP/MPO SMF FEC Optisches Transceiver-Modul $550.00
- Mellanox MMA1T00-HS kompatibles 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 optisches Transceiver-Modul $300.00
- Mellanox MMS1W50-HM-kompatibles 200G InfiniBand HDR QSFP56 FR4 PAM4 CWDM4 2 km LC SMF FEC Optisches Transceiver-Modul $650.00
- Mellanox MFS1S00-H005E Kompatibles 5m (16ft) 200G HDR QSFP56 zu QSFP56 Aktives optisches Kabel $456.00
- Mellanox MFS1S00-H010E Kompatibles 10m (33ft) 200G HDR QSFP56 zu QSFP56 Aktives optisches Kabel $465.00
- Mellanox MFS1S50-V020E Kompatibel 20m (66ft) 200G QSFP56 bis 2x100G QSFP56 PAM4 Breakout Active Optical Cable $640.00
- Mellanox MFS1S50-V030E Kompatibel 30m (98ft) 200G QSFP56 bis 2x100G QSFP56 PAM4 Breakout Active Optical Cable $660.00
- HPE (Mellanox) P06149-B22 Kompatibles 1 m (3 Fuß) Infiniband HDR 200G QSFP56 auf QSFP56 PAM4 Passives Direct Attach Kupfer-Twinax-Kabel $70.00
- HPE (Mellanox) P06149-B21 Kompatibles 0.5 m (1.6 Fuß) Infiniband HDR 200G QSFP56 auf QSFP56 PAM4 Passives Direct Attach Kupfer-Twinax-Kabel $65.00
- Mellanox MCP1650-H002E26 Kompatibles 2 m (7 Fuß) Infiniband HDR 200G QSFP56 auf QSFP56 PAM4 Passives Direct Attach Kupfer-Twinax-Kabel $70.00
- Mellanox MCP7H50-H002R26 Kompatibles 2m (7ft) Infiniband HDR 200G QSFP56 bis 2x100G QSFP56 PAM4 Passives Breakout Direct Attach Kupferkabel $80.00
- Mellanox MCP7H50-H01AR30 Kompatibles 1.5 m (5 Fuß) Infiniband HDR 200G QSFP56 auf 2x100G QSFP56 PAM4 Passives Breakout Direct Attach Kupferkabel $70.00
- Mellanox MCP7H50-H001R30 Kompatibles 1m (3ft) Infiniband HDR 200G QSFP56 bis 2x100G QSFP56 PAM4 Passives Breakout Direct Attach Kupferkabel $60.00
- HPE (Mellanox) P06248-B21 kompatibles 1 m (3 Fuß) Infiniband HDR 200G QSFP56 auf 2 x 100G QSFP56 PAM4 Passives Breakout Direct Attach Kupferkabel $75.00
- HPE (Mellanox) P06248-B22 kompatibles 1.5 m (5 Fuß) Infiniband HDR 200G QSFP56 auf 2 x 100G QSFP56 PAM4 Passives Breakout Direct Attach Kupferkabel $80.00
- Mellanox MCP1600-E01AE30 Kompatibles 1.5 m InfiniBand EDR 100G QSFP28-zu-QSFP28-Kupfer-Direktanschlusskabel $35.00
- Mellanox MCP1600-E003E26 Kompatibles 3 m InfiniBand EDR 100G QSFP28-zu-QSFP28-Kupfer-Direct-Attach-Kabel $43.00
- Mellanox MCP1600-E002E30 Kompatibles 2 m InfiniBand EDR 100G QSFP28-zu-QSFP28-Kupfer-Direct-Attach-Kabel $35.00
- Mellanox MCP1600-E001E30 Kompatibles 1 m InfiniBand EDR 100G QSFP28-zu-QSFP28-Kupfer-Direct-Attach-Kabel $25.00