KI-Server: Schnittstellen-Verbindungs-Chip-Technologie

Laut TrendForce-Daten beliefen sich die Auslieferungen von KI-Servern auf etwa 130,000 Einheiten, was etwa 1 % der weltweiten Serverauslieferungen ausmacht. Mit Blick auf das Jahr 2023 haben Microsoft, Meta, Baidu und ByteDance sukzessive Produkte und Dienste auf Basis generativer KI auf den Markt gebracht und die Bestellungen aktiv gesteigert. Es wird geschätzt, dass die jährliche Wachstumsrate der KI-Serverlieferungen im Jahr 2023 15.4 % erreichen wird, und angesichts der zukünftigen Nachfrage von ChatGPT nach KI-Servern wird erwartet, dass KI-Server von 12.2 bis 2023 mit einer durchschnittlichen jährlichen Rate von 2027 % wachsen werden .

DGX H100 wurde 2022 auf den Markt gebracht und ist die neueste Version des DGX-Systems von NVIDIA sowie die Basis von NVIDIA DGX SuperPOD. DXG-Server sind mit 8 H100-GPUs und 640 Milliarden Transistoren ausgestattet offEr bietet eine sechsmal höhere KI-Leistung als die Vorgängergeneration bei der neuen FP6-Präzision und bietet eine Bandbreite von 8 GB/s.

Diagramm der internen Chipverbindungsarchitektur des NVIDIA DGX H100-Servers

Quelle: NVIDIA

Im Inneren des DGX H100-Servers handelt es sich bei den blauen Blöcken um IP-Netzwerkkarten, die als Netzwerkkarten fungieren und auch die Rolle der PCIe-Switch-Erweiterung spielen können, indem sie zur Brücke zwischen CPU und GPU (H100) werden. Es verwendet intern den PCle 5.0-Standard. Darüber hinaus besteht CX7 aus zwei Karten in Form von Netzwerkkartenchips zum Einstecken in den Server. Jede Karte besteht aus vier CX2-Chips und gibt zwei optische 4G-OSFP-Modulanschlüsse aus.

Die Verbindung zwischen GPUs (H100) wird hauptsächlich durch NV-Switch-Chips erreicht. Jede GPU in einem DGXH100 erweitert 18 NVLinks nach außen, mit einer bidirektionalen Bandbreite von 50 GB/s pro Link, was einer bidirektionalen Bandbreite von insgesamt 18*50 GB/s=900 GB/s entspricht, die auf 4 integrierte NV-Switches aufgeteilt wird, sodass jeder NV-Switch entspricht 4-5 optische OSFP-Module (insgesamt 18). Jede Optisches OSFP-Modul verwendet 8 optische Kanäle mit einer Übertragungsrate von 100 Gbit/s pro Kanal, sodass die Gesamtrate erreicht wird 800Gbps, was eine Hochgeschwindigkeits-Datenübertragung ermöglicht.

Verbindung von Komponenten wie CPU, GPU: PCIE-Switch, Retimer-Chip

PCIe-Switch, auch PCIe-Switch oder PCIe-Hub genannt, wird hauptsächlich zur Verbindung von PCIe-Geräten verwendet, und das Kommunikationsprotokoll des PCIe-Switch-Chips und seines Geräts ist PCIe. Da es sich bei der PCIe-Link-Kommunikation um eine Art End-to-End-Datenübertragung handelt, muss der Switch Erweiterungs- oder Aggregationsfunktionen bereitstellen, damit mehr Geräte an einen PCle-Port angeschlossen werden können, um das Problem der unzureichenden Anzahl von PCIe-Kanälen zu lösen. Derzeit ist der PCIe-Switch nicht nur in herkömmlichen Speichersystemen weit verbreitet, sondern wird nach und nach auch in einigen Serverplattformen populär, um die Geschwindigkeit der Datenübertragung zu verbessern.

Upgrade der PCIe-Bus-Technologie, Steigerung der PCIe-Switch-Geschwindigkeit pro Generation. Der PCIe-Bus ist ein serieller Hochgeschwindigkeitsersatz für den PCI-Bus. Im Jahr 2001 kündigte Intel die I/O-Technologie der dritten Generation an, die den PCI-Bus ersetzen soll und „3GIO“ genannt wird. Im Jahr 2002 wurde diese Technologie eingeführt offNach Prüfung durch die PCI Special Interest Group (PCI-SIG) wurde es offiziell in „PCI Express“ umbenannt und markierte damit die Geburtsstunde von PCIe. Im Jahr 2003 gab es PCIe 1.0 offKürzlich veröffentlicht, unterstützt eine Übertragungsrate von 250 MB/s pro Kanal und eine Gesamtübertragungsrate von 2.5 GT/s. Im Jahr 2007 kündigte PCI-SIG die Einführung der PCI Express Base 2.0-Spezifikation an. Basierend auf PCIe 1.0 wurde die Gesamtübertragungsrate auf 5 GT/s verdoppelt und die Übertragungsrate pro Kanal von 250 MB/s auf 500 MB/s erhöht. Im Jahr 2022 wird PCI-SIG offOffiziell wurde die PCIe 6.0-Spezifikation veröffentlicht, wodurch die Gesamtbandbreite auf 64 GT/s erhöht wurde.

PCle 1.0 bis 6.0

Quelle: Wikipedia

Da PCIe zunehmend in Servern zum Einsatz kommt, steigt auch die Marktnachfrage nach PCIe-Switches. Den Statistiken und Prognosen von QYResearch zufolge erreichte der weltweite PCIe-Chip-Marktumsatz im Jahr 790 2021 Millionen US-Dollar und wird im Jahr 1.8 voraussichtlich 2028 Milliarden US-Dollar erreichen, mit einer durchschnittlichen jährlichen Wachstumsrate (CAGR) von 11.9 %.

PCle-Schalter

Quelle: Asmedia, BroadCom und Microchip

China ist der größte Markt für PCIe-Switches. Da die Nachfrage nach massiver Datenspeicherung und -übertragung in Servern steigt, ist eine große Anzahl von Hochgeschwindigkeits-Verbindungslösungen erforderlich, um eine massive Datenübertragung in den Bereichen Big Data, Cloud Computing, künstliche Intelligenz usw. als Hochgeschwindigkeits-Verbindung zu erreichen Lösung hat PCIe Switch eine große Nachfrage auf dem chinesischen Markt.

Bei KI-Servern ist mindestens ein Retimer-Chip erforderlich, um die Signalqualität bei der Verbindung von GPU und CPU sicherzustellen. Konkret konfigurieren viele KI-Server mehrere Retimer-Chips, wie beispielsweise Astera Labs, das vier Retimer-Chips im KI-Beschleuniger konfiguriert.

KI-Retimer

Quelle: Astera Labs

PCIe Retimer ist ein Blue-Ozean-Markt mit drei führenden Herstellern und vielen potenziellen Wettbewerbern. Derzeit sind Parade Technologies, Astera Labs und Montage Technology die drei größten Anbieter auf dem PCIe-Retimer-Blue-Ocean-Markt und nehmen die beherrschende Stellung ein. Unter anderem hat Montage Technology PCIe bereits früher eingesetzt und ist der einzige Anbieter auf dem chinesischen Festland, der PCIe 4.0 Retimer in Massenproduktion herstellen kann, und die Entwicklung des PCIe 5.0 Retimer schreitet reibungslos voran.

PCIe

Quelle: Montage Technology, Astera Labs und Parade Technologies

Darüber hinaus sind auch Chiphersteller wie Renesas, TI, Microchip Technology und andere aktiv an der Produktentwicklung von PCIe Retimer beteiligt. Entsprechend der offInformationen zur offiziellen Website: Renesas kann zwei PCIe 3.0 Retimer-Produkte anbieten, nämlich 89HT0816AP und 89HT0832P; TI kann einen 16-Gbit/s-8-Kanal-PCIe-4.0-Retimer bereitstellen – DS160PT801; Ebenso veröffentlichte Microchip Technology im November 2020 die XpressConnect-Serie von Retimer-Chips, die die 5.0GT/s-Rate von PCIe 32 unterstützen können.

GPU-GPU-Verbindung: NVLink, NVSwitch

Globale Chiphersteller achten auf die damit verbundenen Technologien der Hochgeschwindigkeitsschnittstellen. Neben NVIDIAs NVLink bieten auch AMDs Infinity Fabric und Intels CXL (Compute Express Link) Lösungen für die Hochgeschwindigkeitsverbindung innerhalb von Servern.

Der kontinuierlich aktualisierte NVlink hat eine Revolution in der Hochgeschwindigkeits-Verbindungstechnologie ausgelöst. NVLink ist eine von NVIDIA entwickelte Hochgeschwindigkeits-Verbindungstechnologie, die darauf abzielt, die Datenübertragungsgeschwindigkeit zwischen CPU und GPU, GPU und GPU zu beschleunigen und die Systemleistung zu verbessern. Von 2016 bis 2022 wurde NVLink auf die vierte Generation umgestellt. Im Jahr 2016 veröffentlichte NVIDIA den neuen Hochgeschwindigkeits-Schnittstellenchip NVLink, der von der Pascal GP100-GPU getragen wird. Dies ist die erste Generation von NVLink. NVLink nutzt die NVHS-Technologie (High-Speed ​​Signaling Interconnect), die hauptsächlich für die Signalübertragung zwischen GPU und GPU, GPU und CPU verwendet wird. Die GPUs übertragen elektrische Differenzimpedanzsignale in NRZ-Kodierungsform (Non-Return-to-Zero). Der NVLink-Einzellink der ersten Generation kann eine bidirektionale Bandbreite von 40 GB/s erreichen, und ein einzelner Chip kann vier Links unterstützen, also 160 GB/s bidirektionale Gesamtbandbreite.

Vergleich von NVLink der vierten Generation

Quelle: NVIDIA

NVLink-Technologie hat mehrere Iterationen und Aktualisierungen durchlaufen und eine Welle von Innovationen in der Hochgeschwindigkeits-Verbindungstechnologie ausgelöst. Im Jahr 2017 wurde die zweite Generation von NVLink auf Basis der Volta-Architektur veröffentlicht, die 50 GB/s bidirektionale Bandbreite pro Link erreichen kann und sechs Links pro Chip unterstützt, also 300 GB/s gesamte bidirektionale Bandbreite. Im Jahr 2020 wurde die dritte Generation von NVLink auf Basis der Ampere-Architektur veröffentlicht, die 50 GB/s bidirektionale Bandbreite pro Link erreichen kann und 12 Links pro Chip unterstützt, also 600 GB/s gesamte bidirektionale Bandbreite. Im Jahr 2022 wurde die vierte Generation von NVLink auf Basis der Hopper-Architektur veröffentlicht, die das Übertragungssignal in ein PAM4-moduliertes elektrisches Signal umwandelte und eine bidirektionale Bandbreite von 50 GB/s pro Link erreichen und 18 Links pro Chip unterstützen kann, d. h. 900 GB/s gesamte bidirektionale Bandbreite.

Im Jahr 2018 veröffentlichte NVDIA die erste Generation von NVSwitch, die eine Lösung zur Verbesserung der Bandbreite, Reduzierung der Latenz und Ermöglichung der Kommunikation zwischen mehreren GPUs innerhalb des Servers bot. Die erste Generation von NVSwitch wurde mit dem 12-nm-FinFET-Prozess von TSMC hergestellt und verfügte über 18 NVLink 2.0-Schnittstellen. Ein Server kann 16 V100-GPUs über 12 NVSwitches unterstützen und erreicht so mit NVLink die höchste Verbindungsgeschwindigkeit.

Vergleich der Leistung von drei Generationen von NV-Switches

Quelle: NVIDIA

Derzeit ist NVSwitch auf die dritte Generation umgestiegen. Die dritte Generation von NVSwitch basiert auf dem 4N-Prozess von TSMC und jeder NVSwitch-Chip verfügt über 64 NVLink 4.0-Ports. Die Kommunikationsgeschwindigkeit zwischen GPUs kann 900 GB/s erreichen, und diese über NVLink Switch verbundenen GPUs können als einzelner Hochleistungsbeschleuniger mit Deep-Learning-Funktionen verwendet werden.

Die Hochgeschwindigkeitsverbindung zwischen CPU und DRAM steigert die Nachfrage nach Speicherschnittstellenchips.

Die Haupttypen von Serverspeichermodulen sind RDIMM und LRDIMM, die höhere Anforderungen an Stabilität, Fehlerkorrektur und geringen Stromverbrauch stellen als andere Arten von Speichermodulen. Der Speicherschnittstellenchip ist das Kernlogikgerät des Serverspeichermoduls und der notwendige Pfad für den Zugriff der Server-CPU auf die Speicherdaten. Seine Hauptfunktion besteht darin, die Geschwindigkeit und Stabilität des Speicherdatenzugriffs zu verbessern und den wachsenden Hochleistungs- und Kapazitätsanforderungen der Server-CPU an Speichermodule gerecht zu werden.

Klassifizierung von Speichermodulen und nachgelagerte Anwendungen

Quelle: CSDN

Die Geschwindigkeit der Speicherschnittstellenchips steigt weiter von DDR4 auf DDR5. Seit 2016 hat sich DDR4 zur Mainstream-Technologie auf dem Speichermarkt entwickelt. Um eine höhere Übertragungsgeschwindigkeit zu erreichen und eine größere Speicherkapazität zu unterstützen, hat die JEDEC-Organisation die technischen Spezifikationen der DDR4-Speicherschnittstellenchips weiter aktualisiert und verbessert. In der DDR4-Generation, von Gen1.0, Gen1.5 und Gen2.0 bis Gen2plus, ist die höchste Übertragungsgeschwindigkeit, die von jeder Untergeneration von Speicherschnittstellenchips unterstützt wird, kontinuierlich gestiegen, und das letzte Untergenerationsprodukt von DDR4, Gen2plus unterstützt eine maximale Übertragung von 3200MT/s. Während die JEDEC-Organisation die Spezifikationsdefinition von DDR5-Speicherschnittstellenprodukten weiter verbessert, ersetzt die DDR5-Speichertechnologie nach und nach die DDR4-Speichertechnologie.

Derzeit sind für DDR5-Speicherschnittstellenchips drei Untergenerationen mit Unterstützungsraten von 4800 MT/s, 5600 MT/s bzw. 6400 MT/s geplant. Die Branche geht davon aus, dass es in Zukunft möglicherweise 1-2 weitere Untergenerationen geben wird.

Speicherschnittstellenchips werden entsprechend ihrer Funktion in zwei Typen unterteilt, nämlich Registerpuffer (RCD) und Datenpuffer (DB). RCD wird zum Puffern der Adress-, Befehls- und Steuersignale vom Speichercontroller verwendet, und DB wird zum Puffern der Datensignale vom Speichercontroller oder Speichergranulat verwendet.

DDR4, DDR5

Quelle: Montage Technology

Die Aufrüstung von DDR5-Speichermodulen eröffnet neue Möglichkeiten für Speicherschnittstellenchips und modulunterstützende Chips. Im Jahr 2016 betrug die globale Marktgröße für Speicherschnittstellenchips etwa 280 Millionen US-Dollar und erreichte im Jahr 570 etwa 2018 Millionen US-Dollar, mit einer jährlichen Wachstumsrate von 40 % über drei Jahre. Das Upgrade von DDR5 wird die Marktgröße von Speicherschnittstellenchips auf ein neues Niveau bringen. Im Vergleich zu DDR4 ist der Einstiegspreis der ersten Untergeneration von DDR5-Speicherschnittstellenchips aufgrund der höheren Unterstützungsrate und des komplexeren Designs von DDR5 höher als der von DDR4-Speicherschnittstellenchips. Da gleichzeitig die Durchdringungsrate von DDR5-Speicher in Servern und PCs allmählich zunimmt, wird erwartet, dass die Marktgröße von DDR5-bezogenen Speicherschnittstellenchips ein schnelles Wachstum verzeichnen wird.

Die Branche der Speicherschnittstellenchips weist hohe Hürden auf und es hat sich ein dreibeiniges Muster herausgebildet. Speicherschnittstellenchips sind eine technologieintensive Branche und können nur dann in großem Maßstab eingesetzt werden, wenn sie von CPU-, Speicher- und OEM-Herstellern in allen Aspekten streng überprüft wurden, und es ist schwierig, neue Akteure zu erschließen. Mit zunehmender technischer Schwierigkeit ist die Zahl der Speicherschnittstellenchip-Spieler von mehr als 10 in der DDR2-Generation auf nur noch 3 in der DDR4-Generation gesunken. Die Branche hat sich aufgelöst und es hat sich ein dreibeiniges Muster herausgebildet. In der DDR5-Generation gibt es weltweit nur drei Anbieter, die Massenprodukte der ersten Untergeneration von DDR5 anbieten können, nämlich Montage Technology, Renesas Electronics (IDT) und Rambus.

Hinterlasse einen Kommentar

Nach oben scrollen