NVIDIA AI GPU-Server: PCIe vs. SXM

Die GPU-Verbindungstechnologie von Nvidia verfügt über zwei Haupttypen von Speichersteckplätzen: PCIe und SXM. Diese beiden Schnittstellen haben unterschiedliche Funktionen und Leistungen.

Die PCIe-Schnittstelle ist ein weit verbreitetes allgemeines Protokoll. Obwohl es über umfassende Funktionen verfügt, weist es eine relativ langsame Übertragungsgeschwindigkeit für die GPU-Verbindung auf. Dennoch können GPU-Karten mit PCIe-Schnittstelle weiterhin über PCIe-Steckplätze mit der CPU und anderen GPU-Karten im Server kommunizieren. Darüber hinaus können sie über Netzwerkkarten auch Daten mit Geräten auf externen Serverknoten austauschen. Wenn Benutzer die Übertragungsgeschwindigkeit von PCIe-GPU-Karten verbessern möchten, können sie mithilfe der NVLink-Brücke eine schnelle Kommunikation zwischen GPU und CPU erreichen. Allerdings ist zu beachten, dass diese Methode in der Regel nur die Verbindung zwischen zwei GPU-Karten unterstützt. Das heißt, PCIe-GPU-Karten müssen normalerweise paarweise erscheinen, über NVLink Bridge verbunden sein und Daten über den PCIe-Kanal übertragen. Es ist erwähnenswert, dass der neueste PCIe-Standard eine Begrenzung der Netzwerkbandbreite auf 128 GB/s vorsieht.

Im Gegensatz dazu ist die SXM-Schnittstelle speziell auf hohe Leistung ausgelegt GPU-Verbindung. Es verwendet ein dediziertes Protokoll, das auf der Platine ausgelegt ist und SXM dies ermöglicht offEr bietet eine höhere Übertragungsgeschwindigkeit und eine bessere native NVLink-Unterstützung als PCIe in Bezug auf die Verbindung zwischen Karten. Auch die Speicherbandbreite ist PCIe überlegen. Die SXM-Architektur eignet sich besonders für die Anbindung von GPUs an NVIDIAs proprietäre DGX- und HGX-Systeme. In diesen Systemen werden SXM-basierte GPUs über einen auf dem Motherboard integrierten NVSwitch verbunden, ohne dass PCIe für die Kommunikation erforderlich ist. Dieses Design ermöglicht es SXM, bis zu 8 miteinander verbundene GPUs zu unterstützen und so eine sehr hohe Bandbreite zu erreichen. Beispielsweise können die ungekürzten A100 und H100 eine Bandbreite von 600 GB/s bzw. 900 GB/s erreichen, während die leicht gekürzten A800 und H800 eine Bandbreite von 400 GB/s erreichen können.

PCIe GPU zu GPU

Benutzer sollten generell die Vor- und Nachteile von PCIe- oder SXM-basierten GPUs entsprechend ihren spezifischen Anwendungsszenarien und Leistungsanforderungen abwägen.

Einführung in PCIe (PCI Express).

PCIe, kurz für PCI Express, ist ein fortschrittlicher Computer-Erweiterungsbusstandard, dessen Hauptziel darin besteht, den Datendurchsatz und die Kommunikationsgeschwindigkeit zwischen Geräten zu verbessern. Als Vollduplex-Verbindungsbus hängt die Datenübertragungsrate von PCIe von der Anzahl seiner Lanes ab. Jede Spur besteht aus zwei Datenleitungspaaren (eines zum Senden, eines zum Empfangen), und jedes Datenleitungspaar enthält zwei Differenzleitungen. X1 bedeutet beispielsweise eine Spur und vier Datenleitungen, die pro Taktzyklus 1 Bit Daten pro Richtung übertragen können; während X2 zwei Spuren und acht Datenleitungen bedeutet, die 2-Bit-Daten pro Zyklus übertragen können. Ebenso gibt es auch X12, X16, X32 und andere Konfigurationen.

PCI Express

Seit der Veröffentlichung von PCIe 1.0 im Jahr 2003 ist seine Übertragungsrate stetig gestiegen. PCIe 1.0 unterstützt eine Übertragungsrate von 250 MB/s pro Kanal, mit einer Gesamtübertragungsrate von 2.5 GT/s. Bis 2007 verdoppelte die PCIe 2.0-Spezifikation die Gesamtübertragungsrate auf 5 GT/s, zudem stieg die Übertragungsrate pro Kanal auf 500 MB/s. Bis 2022 steigerte die PCIe-6.0-Spezifikation die Gesamtübertragungsrate weiter auf 64 GT/s. Im Juni desselben Jahres kündigte die PCI-SIG-Allianz die PCIe 7.0-Spezifikation an, die in der endgültigen Version, die im Jahr 1 erscheinen soll, eine einkanalige (x128) unidirektionale Übertragungsrate von 2025 GT/s erreichen soll.    

PCIe-Bandbreite

PCIe-Durchsatzberechnung

Bei der Berechnung des PCIe-Durchsatzes (oder der verfügbaren Bandbreite) müssen zwei Faktoren berücksichtigt werden: Übertragungsrate und Kodierungsschema. Die Übertragungsrate wird normalerweise in GT/s (Giga Transitions per Second) ausgedrückt, die das Geschwindigkeitsmerkmal des Kommunikationsprotokolls der physikalischen Schicht beschreibt, und nicht die Anzahl der pro Sekunde übertragenen Bits (Gbit/s). Dies liegt daran, dass die Übertragungsrate Overhead-Bits enthält, die keinen zusätzlichen Durchsatz bieten. Beispielsweise verwenden PCIe 1.x und PCIe 2.x das 8b/10b-Kodierungsschema, was bedeutet, dass 20 % der ursprünglichen Kanalbandbreite für den Overhead verwendet werden.

Obwohl das PCIe 2.0-Protokoll eine Übertragungsrate von 5.0 GT/s unterstützt, beträgt die tatsächliche effektive Rate jeder Spur aufgrund der Verwendung der 8b/10b-Kodierungslösung 5*8/10=4 Gbit/s oder 500 MB/s. S. Ebenso unterstützt das PCIe 3.0-Protokoll eine Übertragungsrate von 8.0 GT/s, aber nach Verwendung des 128b/130b-Kodierungsschemas beträgt die tatsächliche effektive Rate jeder Spur etwa 7.877 Gbit/s oder 984.6 MB/s.

Die PCIe-Architektur besteht aus PCIe-Geräten verschiedener Typen, z. B. Root Complex (RC), Switch und Endpoint (EP). Unter diesen ist RC der einzige in der Busarchitektur, der für die Verbindung der Prozessor- und Speichersubsysteme mit den E/A-Geräten verantwortlich ist. Die Funktion des Switches wird normalerweise durch Software implementiert, die zwei oder mehr logische PCI-zu-PCI-Brücken (PCI-PCI-Brücke) enthält, um die Kompatibilität mit vorhandenen PCI-Geräten sicherzustellen. Diese Architektur bietet starke Unterstützung für Hochleistungsrechnen und Kommunikation.

Endpunkt

Da die Rechenleistung immer weiter zunimmt, werden Multi-GPU-Karten zum Schlüssel zur Leistungssteigerung. Der herkömmliche PCIe-Bus stellt jedoch häufig einen Engpass bei der Datenübertragungsrate und Latenz dar, was die Effizienz und Leistung des GPU-Parallel-Computings einschränkt.

Um dieses Problem zu lösen, hat NVIDIA die GPUDirect P2P-Technologie eingeführt, die es GPUs ermöglicht, über PCI Express direkt auf den Speicher anderer GPUs zuzugreifen und so die Latenz des Datenaustauschs zu reduzieren. Dennoch kann es aufgrund des PCI-Express-Busprotokolls und der Topologiebeschränkungen die höheren Bandbreitenanforderungen immer noch nicht erfüllen. Aus diesem Grund hat NVIDIA die NVLink-Hochgeschwindigkeitsverbindungstechnologie weiter eingeführt. NVLink zielt darauf ab, die Datenübertragung zwischen CPU und GPU sowie zwischen GPU und GPU zu beschleunigen und so eine effizientere Verbindungslösung mit geringer Latenz bereitzustellen. Seit seiner ersten Veröffentlichung im Jahr 2014 wurde NVLink kontinuierlich aktualisiert und die Bandbreite erhöht. Von den 100 GB/s des P160 auf die 100 GB/s des V300 und dann auf die 100 GB/s des A600 ist die Bandbreite von NVLink gestiegen und bietet eine starke Unterstützung für Hochleistungsrechnen.

Die NVLink-Hochgeschwindigkeitsverbindung verfügt über zwei Hauptimplementierungsmethoden: Eine erfolgt über eine Brücke und die andere besteht darin, die NVLink-Schnittstelle auf dem Motherboard zu integrieren. Beide Methoden können eine Hochgeschwindigkeitsverbindung zwischen GPUs erreichen und die Systemleistung verbessern.

nvidia nvswitch

NVSwitch: Nahtlose Multi-GPU-Kommunikation mit hoher Bandbreite

Um das Problem der unausgewogenen Kommunikation zwischen GPUs zu lösen, hat NVIDIA den NVSwitch-Chip eingeführt. NVSwitch ist ein physischer Chip (ASIC), ähnlich einem Switch, der über die NVLink-Schnittstelle mehrere GPUs mit hoher Geschwindigkeit verbinden kann. Es kann ein nahtloser Multi-Knoten-GPU-Cluster mit hoher Bandbreite erstellt werden, der es allen GPUs ermöglicht, in einem Cluster mit Konnektivität mit voller Bandbreite zusammenzuarbeiten, wodurch die Kommunikationseffizienz und Bandbreite zwischen mehreren GPUs innerhalb des Servers verbessert wird.

Durch die Kombination von NVLink und NVSwitch kann NVIDIA die KI-Leistung effizient auf mehrere GPUs skalieren und so leistungsstarke Unterstützung für Anwendungen im Bereich Hochleistungsrechnen und künstliche Intelligenz bieten. Seit der Veröffentlichung der ersten Generation von NVSwitch im Jahr 2018 hat sich NVSwitch zur dritten Generation weiterentwickelt. Die dritte Generation von NVSwitch basiert auf dem 4N-Prozess von TSMC und jeder Chip verfügt über 64 NVLink 4.0-Ports mit einer Kommunikationsrate von bis zu 900 GB/s zwischen GPUs. Diese innovative Technologie bietet einen breiteren Entwicklungsraum für zukünftige Anwendungen im Bereich Hochleistungsrechnen und künstliche Intelligenz.

NVlink-Leistung

Hinterlasse einen Kommentar

Nach oben scrollen