Glasfaser und die generative KI-Revolution | Corning

Wie fördert Glasfaser die generative KI-Revolution?

Wie fördert Glasfaser die generative KI-Revolution?

Woran denken Sie, wenn Sie an Künstliche Intelligenz (KI) denken? Für mich begann alles im November letzten Jahres mit einem Beitrag eines alten Freundes auf LinkedIn, der darüber schrieb, wie beeindruckt er von ChatGPT war. Nachdem ich mich schließlich selbst angemeldet hatte, war ich fasziniert von den menschenähnlichen Antworten, die sowohl kontextbezogen als auch technisch fundiert waren.

Die Grenzen der KI waren natürlich offensichtlich – es ist fast so, als würde man mit einem intelligenten, aber etwas langweiligen Freund interagieren. Die auf den Punkt gebrachten Antworten erinnerten mich immer wieder daran, dass es sich um ein KI-Modell handelt und die Ergebnisse mit einer gewissen Skepsis zu betrachten sind. Am besten gefiel mir die Art und Weise, wie die Antworten auf dem Bildschirm erschienen – jeder Buchstabe und jedes Wort langsam und einzeln nacheinander, als ob es von einem Menschen am anderen Ende der Verbindung getippt worden wäre.

Ein halbes Jahr später antwortet ChatGPT so schnell, dass mir schwindelig wird, wenn ich eine Frage eingebe. Was hat sich in den letzten sechs Monaten getan? Welche Änderungen wurden von den Machern von ChatGPT vorgenommen?

Höchstwahrscheinlich hat OpenAI die Inferenzkapazität seines KI-Clusters skaliert, um den Anforderungen von über 100 Millionen Anwendern gerecht zu werden. NVIDIA, der führende Hersteller von KI-Chips, hat Berichten zufolge rund 20.000 Grafikprozessoren (GPUs) bereitgestellt, um die Entwicklung von ChatGPT zu unterstützen. Darüber hinaus plant NVIDIA eine deutlich höhere GPU-Nutzung, wobei spekuliert wird, dass das kommende KI-Modell bis zu 10 Millionen GPUs benötigen könnte.

GPU-Cluster-Architektur - die Grundlage der generativen KI

Das Konzept von 20.000 GPUs ist überschaubar, aber der Gedanke, 10 Millionenvon ihnen optisch zu verbinden, um intelligente Aufgaben zu erfüllen, ist eine ziemliche Herausforderung.

Sprechen wir darüber, wie wir GPU-Cluster erstellen können, indem wir zunächst kleinere Setups konfigurieren und diese dann schrittweise auf Tausende von GPUs erweitern. Als Beispiel dienen hier die NVIDIA-Designrichtlinien, die in der Tradition der HPC-Netzwerken (High-Performance Computing) verwurzelt sind.

Gemäß ihrer Empfehlungen werden umfangreiche GPU-Cluster aus kleineren skalierbaren Einheiten von 256 GPU-Pods aufgebaut. Jeder Pod besteht aus 8 Rechengestellen und 2 Netzwerkschränken in der Mitte der Schrankreihe platziert (MoR). Die Verbindung innerhalb und zwischen diesen Pods wird über InfiniBand hergestellt, ein Hochgeschwindigkeits-Switching-Protokoll mit niedriger Latenz, das die Quantum-2-Switches von NVIDIA verwendet.

Die aktuellen InfiniBand-Switches nutzen 800G OSFP-Ports mit zwei 400G Next Data Rate (NDR)-Ports. Bei dieser Konfiguration werden 8 Fasern pro Port verwendet, was zu 64 x 400G-Ports pro Switch führt. Sehr wahrscheinlich wird die nächste Generation von Switches, egal welchen Namen sie tragen, Extreme Data Rate (XDR) Geschwindigkeiten verwenden. Das bedeutet 64x800G Ports pro Switch, wobei ebenfalls 8 Fasern pro Port - meist Singlemode - verwendet werden. Dieses 4-Kanal-Muster (8 Fasern) scheint ein wiederkehrendes Motiv in der InfiniBand-Roadmap zu sein, die in Tabelle 1 zusammengefasst ist, und wird in Zukunft noch höhere Geschwindigkeiten ermöglichen.

Name 1X (Kanal) 4X (Kanal)
Enhanced Data Rate (EDR) 25G 100G*
High Data Rate (HDR) 50G 200G
Next Data Rate (NDR) 100G 400G
Extreme Data Rate (XDR) 200G 800G
Gigantic Data Rate (GDR) 400G 1600G

* Verbindungsgeschwindigkeiten in Gb/s bei 4X (4 Kanäle) angegeben

Was die Verkabelung anbelangt, so besteht das bewährte Verfahren in der Welt des HPC in der Verwendung von aktiven optischen Punkt-zu-Punkt-Kabeln (Active Optical Cables, AOC). Diese Kabel stellen die Verbindung zwischen den optischen Transceivern her.

Mit der Einführung der neuesten 800G NDR-Ports mit Multifiber Push-On (MPO)-Schnittstellen hat sich die Landschaft jedoch von AOC-Kabeln zu passiven MPO-MPO-Patchkabeln für Punkt-zu-Punkt-Verbindungen verändert. Wenn man einen einzelnen 256-GPU-Pods betrachtet, stellt die Verwendung von Punkt-zu-Punkt-Verbindungen kein großes Problem dar. Ich persönlich würde mich für MPO-Patchkabel entscheiden, für eine optimierte Konfiguration.

Betrieb in großem Maßstab

Bis hierher sind die Dinge relativ simpel. Herausforderungen ergeben sich jedoch, wenn ein größerer Maßstab angestrebt wird – z.B. 16k GPUs, die eine Verbindung von 64 dieser 256 GPU-Pods erfordern – aufgrund der Rail-optimierten Natur der für diese Hochleistungs-GPU-Cluster verwendeten Compute Fabric. In einem Rail-optimierten Setup sind alle Host-Channel-Adapter (HCAs) von jedem Rechensystem mit demselben Leaf-Switch verbunden. Dieser Aufbau gilt als entscheidend für die Maximierung der Deep Learning (DL)-Trainingsleistung in einer Multi-Job-Umgebung. Ein typischer H100-Knoten ist mit 4 Dual-Port-QSFPs ausgestattet, was 8 Uplink-Ports entspricht – je ein unabhängiger Uplink pro GPU –, die mit acht verschiedenen Leaf-Switches verbunden sind, wodurch eine 8-Rails-optimierte Fabric entsteht.

Dieser Entwurf funktioniert nahtlos, wenn es sich um einen einzelnen Pod mit 256 GPUs handelt. Was aber, wenn das Ziel darin besteht, eine Fabric mit 16.384 GPUs zu konstruieren? In einem solchen Szenario werden zwei zusätzliche Switching-Ebenen erforderlich. Der erste Leaf-Switch jedes Pods ist mit jedem Switch in Spine Gruppe Eins (SG1) verbunden, während der zweite Leaf-Switch innerhalb jedes Pods mit jedem Switch in SG2 verbunden ist, und so weiter. Um eine vollständig realisierte Fat-Tree-Topologie zu erreichen, muss eine dritte Schicht von Core Switching Grupping (CG) integriert werden.

Betrachten wir noch einmal die Zahlen für einen 16.384-GPU-Cluster: Die Herstellung von Verbindungen zwischen Rechenknoten und Leaf-Switches (8 pro Pod) erfordert 16.384 Kabel, also 256 MPO-Patchkabel pro Pod. Je weiter wir unser Netzwerk ausbauen, desto anspruchsvoller wird die Aufgabe, Leaf-Spine- und Spine-Core-Verbindungen herzustellen. Dies beinhaltet die anfängliche Bündelung mehrerer Punkt-zu-Punkt-MPO-Patchkabel, die dann über Entfernungen von 50 bis 500 Meter gezogen werden.

Compute

Node Anzahl

GPU Anzahl

Pod Anzahl

Leaf SW Anzahl

Spine SW Anzahl

Core SW Anzahl

Node-Leaf Kabel- Anzahl

Leaf-Spine Kabel-anzahl

Spine-Core Anzahl

2048

16384

64

512

512

256

16384

16384

16384

Könnte es einen effizienteren Ansatz für diesen Betrieb geben? Ein Vorschlag wäre die Verwendung eines strukturierten Verkabelungssystems mit zwei Patchfeldern und hochfaserigen MPO-Trunks, zum Beispiel mit 144 Fasern. Auf diese Weise könnten wir 18 MPO-Patchkabel (18x8=144) in einem einzigen Base-8-Trunk zusammenfassen. Dieses konsolidierte Kabel kann in einem Rutsch durch das Rechenzentrum gezogen werden. Durch die Verwendung von Patchfeldern, die für 8-Faser-Verbindungen geeignet sind, und MPO-Adapterpanels an den Endpunkten können sie dann aufgeteilt und mit einer Rail-optimierten Fabric verbunden werden. Mit dieser Methode entfällt die Notwendigkeit, zahlreiche einzelne MPO-Patchkabel zu verwalten.

Zur Veranschaulichung betrachten wir das Szenario, in dem 256 Uplinks von jedem Pod für eine Unblocking Fabric benötigt werden. Wir können uns dafür entscheiden, 15x144 Glasfasertrunks von jedem Pod zu ziehen, was 15x18=270 Uplinks ergibt. Bemerkenswerterweise kann dies mit nur 15 Kabelmänteln erreicht werden. Darüber hinaus bietet dieses Setup 270-256=14 Reserveverbindungen, die als Backups dienen oder für Speicher- oder Management-Netzwerkverbindungen verwendet werden können.

Künstliche Intelligenz hat erhebliche Fortschritte bei der Beantwortung unserer Fragen gemacht, und ihre Entwicklung geht weiter. Um diese Fortschritte zu ermöglichen, ist die Suche nach Verkabelungslösungen, die umfangreiche GPU-Cluster mit 16.000 oder 24.000 GPUs unterstützen können, ein wichtiger Teil des Puzzles und eine Herausforderung, der sich die optische Konnektivitätsbranche bereits stellt.

 

Mustafa Keskin
Corning Optical Communications
Letzte Aktualisierung: Oktober 2024

Mustafa Keskin

Mustafa Keskin

Mit mehr als 19 Jahren Erfahrung in der Glasfaserindustrie ist er ein erfahrener Experte und arbeitet derzeit als Application Solutions Manager bei Corning Optical Communications in Berlin, Deutschland. Er zeichnet sich durch die Entwicklung von Architekturlösungen für Rechenzentren und Hauptverteiler von Netzbetreibern aus, die auf Branchentrends und Kundenbefragungen basieren. Zuvor war er als Mitglied eines globalen Teams maßgeblich an der Entwicklung des optischen Verkabelungssystems EDGE8 für Rechenzentren beteiligt. Seine Fachkenntnisse umfassen auch die Veröffentlichung von Artikeln über innovative Anwendungen wie die Verwendung von Corning Mesh-Modulen in Spine- und Leaf-Netzwerkarchitekturen.

Nehmen Sie Kontakt mit uns auf. Unsere Experten unterstützen Sie bei jedem Schritt.

Ganz gleich, ob Sie Hilfe bei der aktuellen Umsetzung oder bei der Planung für die Zukunft benötigen, wir können Ihnen helfen. Füllen Sie einfach dieses Formular aus.

Vielen Dank!

Ein Vertreter von Corning wird sich in Kürze mit Ihnen in Verbindung setzen und Ihre Anfrage beantworten. Sollten Sie sofortige Hilfe benötigen, rufen Sie bitte unseren Kundenservice unter +49 30 5303 2100 an.