Pour les entreprises informatiques, il est hors de question de laisser échapper les opportunités liées aux dernières avancées de l’intelligence artificielle (IA). Si bien qu’alors que l’IA générative est rapidement devenue un impératif pour les dirigeants de tous les secteurs d’activité, la plupart des équipes réseau ne savent toujours pas par où commencer.
Bien qu’il existe toutes sortes de nouvelles technologies et pléthore de nouveaux protocoles à examiner lors de la construction de datacenters pour les charges de travail IA, la majorité de l’infrastructure et de l’expertise réseau actuelles d’une organisation reste identique. De nombreuses entreprises avec lesquelles nous travaillons en étroite collaboration sont surprises de le constater.
Chez Juniper, nous aidons nos clients à relever les défis uniques associés au déploiement et à l’exploitation de nouvelles architectures de datacenters IA. En juillet, nous avons d’ailleurs lancé notre solution de datacenter IA ( « les réseaux au service de l’IA ») et souligné le rôle clé que joue Juniper™ Apstra, notre logiciel de gestion et d’automatisation des fabrics de datacenters. Nul besoin d’implémentations compliquées et propriétaires de datacenters IA, telles que les fabrics programmées. Apstra vous guide à chaque étape du cycle de vie du réseau du datacenter IA, de la conception (jour 0) au déploiement (jour 1) en passant par l’exploitation continue (jour 2+). Découvrez tous les détails dans cette présentation de la solution.
Simplifiez le déploiement et l’exploitation de datacenters IA avec des modèles Juniper Apstra
Les équipes réseau sont chargées de construire une nouvelle infrastructure de datacenter IA afin de tirer parti des récentes avancées en matière d’IA. La nature distincte des schémas de trafic IA, souvent appelés « flux éléphants », présente un ensemble unique de défis et d’exigences que seule une approche réactive et innovante du réseau et de la gestion réseau peut résoudre. Les organisations, même habituées à exploiter un datacenter d’entreprise, ne sont pas sereines pour maximiser l’utilisation des coûteux processeurs graphiques (GPU) et minimiser les temps d’exécution des tâches (JCT) afin d’espérer un rendement maximal.
L’infrastructure Ethernet avec laquelle presque toutes les équipes réseau sont familières est heureusement à la hauteur du défi, bien que les datacenters IA nécessitent de nouvelles architectures réseau et de nouvelles techniques pour optimiser les performances des fabrics Ethernet. Apstra gère à la fois les nouvelles architectures de datacenters IA et les défis liés à l’optimisation des fabrics. Les conceptions de datacenters IA sont créées dans un concepteur de modèles à partir des blueprints existants d’Apstra. L’optimisation automatique des réseaux d’entraînement IA avec Apstra accélère les approches actuelles. Ces nouvelles fonctionnalités font partie des licences Apstra existantes.
En raison de leurs exigences uniques, la conception et la configuration des fabrics de datacenters IA pour les charges de travail IA posent des défis supplémentaires par rapport aux charges de travail traditionnelles. Avec le concepteur de modèles de clusters IA d’Apstra, vous pouvez rapidement et facilement créer des modèles Apstra validés et optimisés, adaptés à vos exigences spécifiques en matière de ressources et de charges de travail. En indiquant des données minimales, telles que le nombre de processeurs graphiques, de serveurs et de racks nécessaires, l’outil génère des modèles de racks personnalisés qui garantissent une utilisation efficace des ressources et minimisent les goulots d’étranglement potentiels, ce qui vous permet de faire évoluer votre réseau de manière fiable en quelques clics. Vous ne savez pas ce qu’est une conception « rail-optimized » ? Apstra vous explique tout. La validation continue d’Apstra garantit que l’état opérationnel du réseau du datacenter correspond à l’intention déclarée dans le modèle.
Concepteur de modèles de clusters IA d’Apstra
Les exigences uniques liées à la conception et au nombre de connexions compliquent le déploiement des environnements d’entraînement IA et sont source d’erreurs. Les blueprints Apstra génèrent une carte de câblage qui, associée aux informations sur l’élévation des racks, indique très précisément aux techniciens les liaisons et les points de terminaison à emprunter pour effectuer le câblage.
Les cartes d’interface réseau (NIC) des serveurs GPU jouent un rôle important dans la conception des datacenters IA. Configurer les NIC des GPU pour un routage all-to-all est laborieux et nécessite de comprendre la fabric réseau dans son ensemble. L’agent hôte Apstra pour l’IA/le ML peut configurer automatiquement les NIC des GPU avec la bonne adresse IP et les bonnes informations de routage tirées du blueprint du réseau GPU.
Surveillance Apstra des GPU/NIC
Préparez votre datacenter IA en attendant la livraison de GPU ultrademandés
Les accélérateurs d’IA (comme les GPU) sont rares et coûteux. Après avoir attendu de recevoir leurs GPU pendant des mois, de nombreuses entreprises les laissent finalement prendre la poussière pendant le déploiement et la configuration de l’infrastructure.
Apstra fournit un cadre solide pour la modélisation et la gestion numériques des conceptions de réseau avant l’acquisition de tout matériel physique, ce qui permet aux organisations de rationaliser efficacement les processus de planification et de déploiement du réseau. Préparez l’ensemble de votre datacenter IA avant que votre infrastructure n’arrive dans l’entrepôt. Avec Apstra, vous pouvez réduire le déploiement à quelques jours.
Optimisation automatique des fabrics de datacenters IA
L’entraînement des modèles d’IA sur Ethernet nécessite de nouvelles techniques de gestion de la congestion et de contrôle des flux, telles que le mécanisme DCQCN (Data Center Quantized Congestion Notification). Optimiser les performances des fabrics IA demande de gérer des protocoles sophistiqués qui présentent d’importants défis opérationnels. Le faire manuellement est chronophage, inefficace et accidentogène.
Avec Apstra, vous pouvez optimiser automatiquement votre fabric en quelques minutes, et ainsi atteindre l’équilibre délicat entre débit maximum et perte de paquets minimum. À mesure que la mémoire tampon d’un commutateur se remplit, les mécanismes DCQCN s’activent : la notification explicite de congestion (ECN) et le contrôle de flux prioritaire (PFC) optimisent le flux de trafic. Apstra surveille en permanence les principaux indicateurs RoCE v2 de congestion et reconfigure DCQCN sur les commutateurs afin d’éviter la perte de paquets. En se basant sur des analyses en temps réel, l’optimisation dynamique des paramètres DCQCN garantit que le réseau fonctionne optimalement en continu. Cette application est actuellement disponible en téléchargement sur GitHub, elle est également disponible gratuitement avec n’importe quelle licence Apstra.
Application d’optimisation automatique de fabrics de datacenters IA Apstra
Juniper Apstra accélère le retour sur investissement des projets d’IA professionnels
Ne manquez pas de visiter le laboratoire Juniper Ops4AI : nos clients y testent les performances de leurs modèles, mais aussi l’efficacité de la conception de leur réseau de datacenter, pour accélérer la rentabilité de l’IA. Plus besoin de paniquer face aux objectifs imposés par la direction en matière d’IA, aussi difficiles soient-ils. Juniper Apstra est là pour vous aider.
Lisez la présentation de la solution pour en savoir plus et découvrez notre solution de datacenter IA.