AIモデルのトレーニングは特別な課題です。Llama 3.1やGPT 4.0など、基盤となる大規模言語モデル(LLM)の開発には、世界中でもごくわずかな大企業だけが実現できるような莫大な予算とリソースが必要です。これらのLLMは、数十億から数兆個のパラメーターを持ち、合理的なジョブ完了時間内でトレーニングを行うためには、複雑なデータセンターファブリックの調整が必要です。例えば、GPT 4.0は1.76兆個のパラメーターを使用しています。
これらの数字を具体的にイメージするため、各パラメーターを1枚のトランプのカードに置き換えて考えてみましょう。52枚のトランプのデッキは約0.75インチ(約1.9cm)の厚さです。100万枚のカードを積み重ねるとエンパイアステートビルディングよりも高くなり、10億枚のカードを積み重ねると228マイル(約367キロメートル)の高さで地球の熱圏までに達し、1兆枚のカードを積み重ねると約227,000マイル(約365,000キロメートル)で、月までの距離に相当します。
AI投資を最大限に活用
多くの企業にとって、AIへの投資は新しいアプローチが必要です。それは、これらの基盤となるLLMを自社のデータで改良し、特定のビジネス上の課題を解決、そしてより深い顧客との関わりを提供することです。しかし、AIの導入が広がる中で、企業はデータプライバシーの強化やサービスの差別化を目的とした新たなAI投資の最適化方法を求めています。
ほとんどの企業にとって、これはオンプレミスのAIワークロードの一部を、プライベートデータセンターに移行することを意味します。「パブリッククラウド対プライベートクラウド」のデータセンター論争は、AIデータセンターにも当てはまります。多くの企業は、AIインフラを構築するという新しい課題に圧倒されています。確かに課題ではありますが、乗り越えられないものではありません。既存のデータセンターの知識を使用できます。少しのサポートがあれば大丈夫です。ジュニパーがそのガイド役を務めます。
このブログシリーズでは、AIへの投資を検討する企業にとってのさまざまな考慮事項と、ジュニパーが提唱するAIデータセンターのABCに基づくさまざまなアプローチについて紹介します。ABCとはつまり、アプリケーション(Application)、構築(Build)または購入(Buy)、コスト(Cost)を意味します。
まず初めに、なぜAIインフラがこれほどまでに特化される必要があるのかを見ていきましょう。
LLMおよびニューラルネットワークの理解
インフラの選択肢をよりよく理解するためには、AIアーキテクチャの基本と、AIの開発、提供、トレーニング、推論における基本的なカテゴリについて理解すると役立ちます。
推論サーバーは、インターネットに接続されたフロントエンドのデータセンターでホストされており、ユーザーやデバイスが完全にトレーニングされたAIアプリケーション(Llama 3など)にクエリを送信できるようになっています。TCPを使用すると、推論クエリやトラフィックのパターンは他のクラウドホスト型ワークロードと同様になります。リアルタイムで行われる推論では、一般的な中央処理装置(CPU)や、トレーニング時に使用されるのと同じグラフィック処理装置 (GPU)を用いることで、最速の応答と最低の遅延を提供します。これは通常、初回トークンの応答時間や、インクリメンタルトークンの時間といった指標で測定されます。要するに、これはLLMがクエリにどれだけ速く応答できるかを示しており、大きなスケールでは、一貫したパフォーマンスを維持するために大規模な投資と専門知識が必要になる場合があります。
一方で、トレーニングには特有の処理上の課題があり、特別なデータセンターのアーキテクチャが必要となります。トレーニングは、LLMやトレーニングデータセットが「無秩序な」インターネットから隔離された、バックエンドのデータセンターで行われます。これらのデータセンターは、400Gbpsや800Gbpsのネットワーキング接続を使用する、専用のレール最適化ファブリックを備えた高容量で高性能のGPUコンピューティングおよびストレージプラットフォームを使用して設計されています。大規模な「エレファント」フロー(大量データ転送)や広範囲なGPU間通信が発生するため、これらのネットワークは、数か月に及ぶ継続的なトレーニングサイクルに対応できるよう、容量、トラフィックパターン、トラフィック管理のニーズに合わせて最適化される必要があります。
トレーニングの完了までにかかる時間は、LLMの複雑さ、LLMをトレーニングするニューラルネットワーク内の層、精度向上のために調整すべきパラメーター、そしてデータセンターのインフラストラクチャの設計によって異なります。しかしニューラルネットワークとは何でしょう? そしてLLMの結果を改善するパラメーターとは何でしょう?
ニューラルネットワークの基本
ニューラルネットワークとは、人間の脳の計算モデルを模倣するように設計されたコンピューティングアーキテクチャです。ニューラルネットワークは、データを取り込む入力層、結果を出力する出力層、そして入力された生データを有用な情報に変換する中間の隠れた層から成る、段階的な機能層で実装されています。ある層の出力が次の層の入力となり、クエリが体系的に分解、分析、処理されることで、各層のニューラルノード(または数学的関数)を通じて結果が生成されます。
例えば、下の画像は、最初の4つの偶数を示す手書きの数字を認識するために、LLMがニューラルネットワーク上で訓練される様子を示しています。このニューラルネットワークには2つの隠れた層があり、1つは形状を処理し、もう1つはパターンを認識します。手書きの数字のデータセットは小さなブロックに分割され、モデルに入力されます。最初の層では曲線や線が処理され、その後データは2番目の層に送られて、分析されている数字を示す可能性のあるデータ内のパターンが識別されます。
最適なLLM精度のためのパラメーター調整
各層内のニューラルノードは、ニューラルネットワーク接続のメッシュを持っており、これによりAI科学者は各接続に重みを適用できます。各重みは数値であり、特定の接続への関連性の強さを示します。例えば、データの上部四分割の1つにある曲線は「2」や「8」に対して重みが高い一方で、同じ四分割にある直線は「2」や「8」に対して重みが低いことになります。パターンを見る際に、縦の直線だけの組み合わせは「4」に対してつながりが強く重みは高いですが、直線と曲線が組み合わさると、「2」や「6」、「8」に対してよりつながりが強く重みは高くなります。
トレーニングの開始時には、モデルの結果は非常に不正確です。しかし、トレーニングを重ねることで、これらのニューラルのつながりの重みが調整または「チューニング」され、精度を段階的に向上させることができます。強いつながりと弱いつながりをさらに区別するために、各つながりには数値的なバイアスが適用され、強いつながりを強調し、弱いつながりを調整します。重みとバイアスはともに、LLMの精度を向上させるために調整する必要があるパラメーターを表します。
この簡単な例では、モデルが各数字を高い精度で識別できるようになるまでに、242個のパラメーターを繰り返し調整する必要があります。数十億または数兆個のパラメーターを扱う場合、このプロセスを自動化するため、逆伝播アルゴリズムが使用されます。それでもトレーニングは非常に長いプロセスであり、データセンターの基盤となる物理ネットワークで発生する処理によって遅延したり中断されることがあります。「テールレイテンシ」と呼ばれるこの遅延は、データセンターネットワークが適切に設計されていないと、トレーニングプロセスの時間とコストを大幅に増加させる可能性があります。
次のブログでは、企業がこれらの基盤となるLLMを活用して、自社のカスタムAIアプリケーションを導入し、プライベートデータセンターから提供する方法について説明します。
他の企業がこれらの課題に取り組むために、どのようにインフラストラクチャを構築しているか、ご興味はありますか? ぜひジュニパーのバーチャルイベント、「Seize the AI Moment(AIのチャンスをつかむ)」をご視聴いただき、AMD、Intel、Meta、PayPalなどからインサイトを得ましょう。