Die IT-Teams von Unternehmen sehen sich einem Druck ausgesetzt, „einfach irgendetwas zu machen“, um von den aktuellen Fortschritten im Bereich Künstliche Intelligenz (KI) profitieren zu können. Generative KI hat sich schnell von einer F&E-Nebenrolle zu einem branchenübergreifenden Gesprächsthema auf Vorstandsebene gewandelt. Doch die meisten Teams für Unternehmensnetzwerke wissen noch immer nicht, wo sie beginnen sollen.
Es gibt viele verschiedene neue Technologien und einen Wust an neuen Protokollen, durch den man sich für den Aufbau neuer Datencenter für KI-Workloads wühlen muss. Dennoch lässt sich feststellen, dass der Großteil der Netzwerkinfrastruktur und des dazugehörigen Fachwissens, über welche die Unternehmen verfügen, nach wie vor aktuell sind. Viele Unternehmen, mit denen wir eng zusammenarbeiten, waren von dieser Tatsache überrascht.
Wir von Juniper helfen unseren Kunden, die einzigartigen Herausforderungen bei der Bereitstellung und beim Betrieb von neuen KI-Datencenter-Architekturen zu überwinden. So haben wir im Juli unsere Lösung für KI-Datencenter („AI for Networking“) veröffentlicht und die zentrale Rolle beleuchtet, die die Software von Juniper™ Apstra für Datencenter-Fabric-Management und Automatisierung spielt. Dadurch ist es nicht nötig, komplizierte, proprietäre KI-Datencenter-Lösungen zu implementieren, wie bspw. zum Planen von Fabrics. Apstra steht bei jedem Abschnitt des Lebenszyklus für KI-Datencenter-Netzwerke unterstützend zur Seite — von Day 0: Design, über Day 1: Bereitstellung bis zu Day 2+: Routinebetrieb. Alle Einzelheiten erfahren Sie in dieser neuen Lösungsbeschreibung.
Simplifizieren der Bereitstellung und des Betriebs von KI-Datencentern mit Vorlagen von Juniper Apstra
Von Netzwerkteams wird erwartet, dass sie die nötige KI-Datencenter-Infrastruktur
(AI DC) erstellen, um von den jüngsten Fortschritten bei KI zu profitieren. Die einzigartige Beschaffenheit von KI-Datenverkehrsmustern, die auch als „Elephant Flows“ bezeichnet werden, sorgt ihrerseits für einzigartige schwierige Aufgaben und Anforderungen. Notwendig ist dabei ein reaktionsfähiger und vorausschauender Ansatz in Bezug auf Networking und Management. Da üblicherweise die Nutzungsmaximierung der teuren Grafikprozessoren (GPU) und die Minimierung der Job-Bearbeitungsdauer im Vordergrund stehen, um die Ökonomie Ihrer KI-Datencenter zu optimieren, stellt dies für gewöhnliche Unternehmens-Datencenter eine völlig neue Welt dar.
Glücklicherweise ist die Ethernet-Infrastruktur, mit der wirklich alle Netzwerkteams vertraut sind, der Herausforderung gewachsen, auch wenn KI-Datencenter neue Netzwerkarchitekturen und neue Techniken zur Feinabstimmung der Ethernet-Fabric benötigen, um die Performance zu optimieren. Apstra kümmert sich sowohl um neue KI-Datencenter-Architekturen als auch um damit verbundene Feinabstimmungen der Fabric. KI-Datencenter-Designs werden in einem Vorlagen-Designer anhand bereits existierender Apstra-Blueprints erstellt. Und das Autotuning der KI-Trainingsnetzwerke mit Apstra erspart Ihnen unzählige Stunden an Arbeitszeit sowie Frust, wenn man es mit den heute üblichen manuellen und zeitintensiven Ansätzen vergleicht. Von diesen neuen Funktionen können Sie bei bestehenden Apstra-Lizenzen ohne zusätzliche Kosten Gebrauch machen.
Im Vergleich zu traditionellen Workloads bringt das Design und die Konfiguration von KI-Datencenter-Fabrics für KI-Workloads aufgrund ihrer einzigartigen Anforderungen zusätzliche Herausforderungen mit sich. Mit Apstras Vorlagen-Designer für KI-Cluster können Sie schnell und einfach validierte und optimierte Apstra-Vorlagen erstellen, die auf Ihre individuellen Ressourcenanforderungen und Workloads zugeschnitten sind. Das Tool generiert individuelle Rack-Vorlagen, die eine effiziente Ressourcennutzung ermöglichen und die potenzielle Performanceengpässe minimieren — und das bereits anhand von Minimaleingaben wie der benötigten Anzahl der GPUs, Server und Racks.
So können Sie Ihr Netzwerk mit wenigen Klicks zuverlässig skalieren. Sie sind nicht sicher, was „Rail-optimiertes“ Design bedeutet? Apstra zeigt Ihnen, wie Sie es erstellen können. Die kontinuierliche Validierung durch Apstra stellt sicher, dass der Betriebszustand des Datencenter-Netzwerks dem in der Vorlage angegebenen Intent entspricht.
Vorlagen-Designer für KI-Cluster in Apstra
Durch die individuellen Design-Anforderungen und die Anzahl der Verbindungen wird die Bereitstellung von Umgebungen zum KI-Training verkompliziert und fehleranfällig. Apstra-Blueprints legen die Verkabelungskarte dar. Diese gibt, wenn sie mit den Informationen des Rack-Diagramms verknüpft wird, eine exakte Liste der Verbindungen und Endgeräte aus, mit denen die Datencenter-Techniker die Verkabelung mit großer Präzision ausführen können.
Den Netzwerkschnittstellenkarten (NICs) in den GPU-Servern fällt bei KI-Datencenter-Designs eine wichtige Rolle zu. Die Konfigurierung von GPU-NICs für multilaterales Routing ist arbeitsintensiv und setzt ein Verständnis der allgemeinen Netzwerk-Fabric voraus. Der Host-Agent von Apstra für KI/ML konfiguriert die GPU-NICs automatisch mit der korrekten IP-Adresse und den Routing-Informationen, die vom GPU-Netzwerk-Blueprint entnommen werden.
GPU/NIC-Überwachung
Pre-Staging Ihres KI-Datencenters, während Sie auf die Lieferung der gefragten GPUs warten
KI-Beschleuniger wie GPUs sind teuer und selten. Nachdem manche Unternehmen monatelang auf die Lieferung teurer GPUs warten mussten, liegen diese nun ungenutzt herum, weil nun erst die Infrastruktur bereitstellt und konfiguriert werden muss.
Apstra bietet ein leistungsfähiges Framework zum digitalen Modellieren und Verwalten von Netzwerkdesigns, bevor physische Hardware angeschafft wird. So können Unternehmen ihre Netzwerkplanung sowie ihre Bereitstellungsprozesse effektiv optimieren. So können Sie ein gesamtes Pre-Staging Ihres KI-Datencenters vornehmen, bevor die Infrastruktur im Lagerhaus eintrifft. Mit Apstra erfolgt die Bereitstellung innerhalb von Tagen und nicht Wochen.
Autotuning der KI-Datencenter-Fabric
Das Training von KI-Modellen über Ethernet ist auf neue Techniken in Bezug auf Überlastungsmanagement und Datenstromsteuerung angewiesen, wie z. B. Data Center Quantized Congestion Notification (DCQCN). Die Feinabstimmung von KI-Fabrics, um die Performance optimieren und von diesen fortschrittlichen Protokollen profitieren zu können, sorgt im Betrieb für zahlreiche Herausforderungen. Manuelle Techniken zur Feinabstimmung sind zeitintensiv, wenig effektiv, fehleranfällig und unwirtschaftlich.
Mit Apstra können Sie das Autotuning Ihrer Fabric innerhalb von Minuten vornehmen. Die Feinabstimmung einer Fabric bedeutet ein empfindliches Gleichgewicht zwischen der Maximierung des Durchsatzes und der Minimierung des Paketverlustes. Wenn sich der Puffer des Switches füllt, werden die DCQCN-Komponenten „Explizite Überlastungsbenachrichtigung“ (ECN) und „Prioritätsdatenstromkontrolle“ (PFC) aktiviert, um den Datenstrom zu optimieren. Apstra überwacht die wichtigsten Metriken in Bezug auf RoCE-v2-Überlastung und konfiguriert DCQCN an den Switches neu, um Paketverluste zu vermeiden. Die dynamische und auf Netzwerkanalysen in Echtzeit basierende Optimierung der DCQCN-Parameter sorgt für einen effizienten Betrieb. Die Anwendung kann gegenwärtig auf GitHub heruntergeladen werden — mit einer Apstra-Lizenz ist sie ebenfalls ohne Zusatzkosten verfügbar.
Apstra-App für das Autotuning der KI-Datencenter-Fabric
Juniper Apstra minimiert die Zeit bis zur Wertschöpfung bei KI-Projekten in Unternehmen
Werfen Sie auch einen Blick auf das Juniper Ops4AI Lab. Dort können Kunden die Modellperformance und die Effektivität von Netzwerkdesigns für Datencenter testen, wodurch sich die Zeit bis zur KI-Wertschöpfung verkürzen lässt. Teams für Unternehmensnetzwerke sollten angesichts aggressiver KI-Ziele, die vom Führungsteam ausgegeben werden, nicht in Panik geraten. Juniper Apstra ist die Lösung.
Lesen Sie die Lösungsbeschreibung, um mehr zu erfahren und tiefer in unsere KI-Datencenter-Lösungen einzutauchen.