エンタープライズのIT部門は 、人工知能(AI)の最近の進歩を活用するために「とにかく何かをしなければ」というプレッシャーを抱えています。業界を問わず、研究開発の脇役だった生成AIは、現在では役員が重視する必須課題となっています。しかし、ほとんどのエンタープライズのネットワーキングチームは、どこから手をつけるべきかわかっていません。
AIワークロード用の新しいデータセンターを構築する際には、あらゆる種類の新しいテクノロジーや新しいプロトコルに直面することになりますが、実際には、企業の既存のネットワーキングインフラストラクチャや専門知識の多くをそのまま利用できるのです。当社のお客様にこの事実を伝えると、多くの方が驚きの声を上げます。
ジュニパーでは、新しいAIデータセンターアーキテクチャの展開と運用に関連した固有の課題について、お客様をサポートしています。7月には、AIデータセンター(「AIのためのネットワーキング」)ソリューションを立ち上げ、 Juniper™ Apstraデータセンターファブリック管理と自動化ソフトウェアが担う重要な役割について紹介しました。計画的なファブリックなど、複雑で独自のAIデータセンターの実装は不要です。Apstraが、Day 0の設計からDay 1の展開、Day 2以降の継続的な運用まで、AIデータ センターネットワークのライフサイクルの全段階をサポートします。こちらの新しいソリューションブリーフで詳細をご確認ください。
Juniper ApstraテンプレートでAIデータセンターの展開と運用を簡略化
AIの最近の進歩を活用するために、ネットワークチームは新しいAIデータセンター
(AI DC)インフラストラクチャの構築を任されています。AIトラフィックパターン(一般に「エレファントフロー」と呼ばれます)に固有の課題と要件に対応するためには、応答性に優れた、将来を見越したネットワーキングおよび管理アプローチが必要です。これまでの一般的なエンタープライズデータセンターとはまったく異なり、高価なGPU(グラフィック処理ユニット)を最大限に活用し、JCT(ジョブ完了時間)を最小化することで、AIデータセンターの経済性を最適化することがきわめて重要となります。
幸い、あらゆるネットワークチームがすでに使い慣れているイーサネットインフラストラクチャを用いて、この課題に対応できます。ただし、AI DCの場合、新しいネットワークアーキテクチャと新しい手法を通じてイーサネットファブリックを調整し、パフォーマンスを最適化する必要があります。Apstraは、新しいAI DCアーキテクチャとファブリック調整の課題の両方を楽々と処理します。AI DCの設計が、既存のApstraの設計図を使用してテンプレートデザイナーで作成されます。またApstraによるAIトレーニングネットワークの自動調整により、これまでの時間がかかる手動アプローチと比較して、時間と手間を大幅に節約できます。これらの新機能は、既存のApstraライセンスにより無料で提供されます。
従来のワークロードとは異なり、AIワークロード用のAI DCファブリックの設計と設定には固有の要件と課題が発生します。ApstraのAIクラスターテンプレートデザイナーを使用すると、具体的なリソース要件とワークロードに合わせて調整された、検証済みで最適化されたApstraテンプレートをすばやく簡単に作成できます。必要なGPU、サーバー、ラックの数など、最小の入力を指定するだけで、カスタマイズされたラックテンプレートがツールによって生成されるため、リソース利用率を効率化して、パフォーマンスの潜在的なボトルネックを最小化し、数回クリックするだけでネットワークを高い信頼性で拡張できます。「レール最適化」設計を知らなくても、Apstraが構築方法を教えてくれます。データ センターネットワークの運用状態がテンプレートで宣言されているインテントと一致していることを確認するために、Apstraが継続的に検証を行います。
Apstra AIクラスターテンプレートデザイナー
AIトレーニング環境は、設計の要件が独特で、接続数が多いため、展開が複雑でエラーが起きやすくなります。Apstraの設計図にはケーブルマップが含まれています。このケーブルマップとラックの立面図情報により、データセンター技術者はリンクとエンドポイントの正確なリストに基づいて、高い精度でケーブル配線作業を完了できます。
GPUサーバーのNIC(ネットワークインターフェイスカード)は、AI DC設計において重要な役割を果たします。GPUのNICをAll-to-Allルーティング用に設定するのは労力がかかり、ネットワークファブリック全体の理解が必要です。人工知能や機械学習用のApstraホストエージェントが、GPUネットワーク設計図から取得した正しいIPアドレスとルーティング情報に基づいて、GPUのNICを自動的に設定します。
Apstra GPU/NIC監視
入手困難なGPUの納入を待っている間にAI DCを事前準備
AIアクセラレーター(GPUなど)は、高価で稀少です。何か月も待った末にようやく高価なGPUを入手したにもかかわらず、多くの企業が、インフラストラクチャの展開と設定が完了していないため、そのGPUを何週間も無駄に遊ばせておくことになっています。
Apstraは、物理的ハードウェアを入手する前にネットワーク設計をデジタルでモデル化して管理するための堅牢なフレームワークとなります。これにより、ネットワークの計画と展開のプロセスを効果的に合理化できます。インフラストラクチャが倉庫に到着する前にAI DC全体を事前準備します。この事前準備とApstraを使用して、今まで数週間かかっていた展開を数日間で行うことができます。
AI DCファブリックの自動調整
イーサネット経由でAIモデルをトレーニングするには、DCQCN(データセンターの量子化による混雑通知)など、混雑管理とフロー制御のための新しい手法が必要です。AIファブリックを調整して、パフォーマンスを最適化し、このような高度なプロトコルを活用する際には、運用上の大きな課題が発生します。手動調整は時間がかかるだけでなく、効果もなく、エラーや非効率性を伴います。
Apstraを使用すると、ファブリックを数分間で自動調整できます。ファブリックの調整には、スループットを最大化しながらパケットロスを最小化する、デリケートなバランスが必要です。スイッチバッファがいっぱいになると、DCQCNのコンポーネント、ECN(明示的混雑通知)、PFC(優先順位に基づくフロー制御)を通じて、トラフィック フローが最適化されます。ApstraがカギとなるRoCE v2の混雑メトリックを継続的に監視して、スイッチのDCQCNを再設定してパケットロスを回避します。リアルタイムネットワーク分析に基づくDCQCNパラメーターの動的な最適化により、効率的な運用を保証します。このアプリケーションは現在、GitHubでダウンロードできます。また、Apstraライセンスをお持ちであれば無料で使用できます。
Apstra AI DCファブリック自動調整アプリ
Juniper Apstraで最短の時間でエンタープライズAIプロジェクトの価値を実現
ジュニパーのOps4AIラボをぜひご覧ください。さまざまなお客様が、モデルのパフォーマンスとデータ センターネットワーク設計の有効性をテストすることで、最短の時間でAIの価値を実現しています。エンタープライズネットワークチームは、経営幹部から野心的なAI目標を掲げられてもパニックになる必要はありません。Juniper Apstraなら実現可能です。
詳細については、ソリューションブリーフおよびジュニパーのAIデータセンターソリューションのページをご覧ください。