AIデータセンターネットワークのABC：アプリケーション（ブログ3回シリーズの第二弾）

このブログシリーズの初回のブログでは、基盤となる大規模言語モデル（LLM）の開発の複雑さと、開発に必要な膨大なリソースについて取り上げ、多くの企業にとってこの開発が手の届かないものであることを説明しました。今回は、すべての企業がこれらの基盤となるLLMを、自社のプライベートデータセンターで活用できる選択肢を紹介します。

128のGPUを備えた小規模なAIデータセンターであっても、導入には数百万ドルのコストがかかるため、効率性に投資することがコスト抑制の鍵となります。この投資アプローチは、ジュニパーが提唱するAIデータセンターのABC、つまり、アプリケーション（Application）、構築（Build）または購入（Buy）、コスト（Cost）に基づいています。このブログでは、特にアプリケーションのニーズが企業のAI投資におけるAI消費モデルにどのように影響するかについて見ていきます。

アプリケーションの複雑さ

AIへの投資を計画する際には、まずAIアプリケーションから期待される目標、目的、成果を理解することが重要です。貴社のユースケースは、カスタマーエクスペリエンスを向上させるためのAIを活用したサポートアシスタント、文書解析ツール、または技術文書アシスタントなど、より汎用的なものでしょうか？それとも、業界や企業特有の、よりカスタマイズされ差別化されたAIアプリケーションでしょうか？カスタマイズのレベルが高くなるほど、すでに複雑な開発プロセスがさらに複雑になり、それが基盤となるLLMやアプリケーションの消費モデルに影響を与えます。

McKinsey Consultingは、AIアプリケーションを導入するための3つのアプローチを、Maker（作成者）、Taker（使用者）、Shaper（形成者）と定義しています。

作成者は業界の大手プレイヤー

作成者は、インターネットデータを元に独自の基盤となるLLMを開発するための財政的手段と専門知識を持つ、世界でごくわずかな企業です。これらの企業には、Google（Gemma、Gemini）、Meta（Llama）、OpenAI（GPT）、Anthropic（Claude）、Mistral（Large、Nemo）、Amazon（Titan）などがあります。LLMの開発が主要な業務ではないほとんどの企業は、使用者または形成者の道を選ぶことになります。

使用者は既存のAIアプリケーションをそのまま活用

汎用的なカスタマーチャットボットや、自然言語処理（NLP）を既存のデータベースに接続するなど、あまり複雑でないサービスを導入する企業は、既製のLLMをカスタマイズする必要はありません。企業は、ライセンス版でもオープンソース版でも、事前にトレーニングされたLLMに基づいた既存のAIアプリケーションを「使用」し、そのモデルを推論のために導入できます。

今日、これらのアプリケーションはほとんどの企業にとって必須の要素となっています。つまり、競争上の差別化はほとんどないかもしれませんが、複雑さが減少することで導入が効率化され、アプリケーションが期待される成果を達成すれば、不要な支出を削減できます。Hugging Faceからは、AIライブラリのリポジトリを通じて、企業は40万以上の事前にトレーニングされたLLM、15万以上のAIアプリケーション、10万以上のデータセットにアクセスできるため、AIを迅速かつ効率的に導入するための多くの選択肢があります。

形成者はLLMを独自のものにする企業

競争上の差別化やカスタマイズされたワークフローアプリケーションを必要とする企業にとって、既製のLLMやアプリケーションでは十分でない場合があります。形成者は、事前にトレーニングされたLLMを使用し、そのモデルを自社独自のデータセットを使用して微調整することで「形成」します。その結果、どんなプロンプトにも非常に具体的で正確な回答を提供するLLMが完成します。このモデルから恩恵を受けるアプリケーションには、以下が含まれますが、これらだけに限りません。

特定の業務機能に合わせてLLMを調整し、業務を効率化し、単調さを軽減するワークフローの自動化
内部ポリシー文書、規制ルール、または法的改正を比較して、特別な考慮が必要な違いを特定するためのAIサポート
特定のオペレーティングシステム、CLI、および文書に基づいてトレーニングされたCopilotによる、コード開発や文書検索の簡素化

RAG推論を活用

このシリーズの最初のブログで説明したように、推論システムはトレーニングされたAIアプリケーションをエンドユーザーやデバイスに提供します。モデルのサイズによって、推論は単一のGPUやサーバーに導入することも、複数のサーバーにアプリケーションを分散させてスケールとパフォーマンスを向上させるマルチノード導入として実施することもできます。

比較的新しい技術である「リトリーバルオーグメンテッドジェネレーション（RAG）」は、企業がAIモデルの開発や導入をカスタマイズするための興味深い手法を提供します。RAGは、外部のデータソースから取得した補足データを用いて、事前にトレーニングされたLLMを強化します。RAGを使用すると、ユーザーのクエリからベクトル埋め込みが取得されます。そのベクトル埋め込みに最も近い一致が、外部データソースに対するデータのクエリに使用されます。取得された最も関連性の高いテキストやデータの断片は、元のプロンプトと共にLLMに渡され、推論が行われます。元のプロンプトに関連するローカルデータを提供することで、LLMはその追加データと自らの知識を組み合わせて回答を生成できます。LLMを再度トレーニングすることなく、RAGは顧客やデバイスからのクエリに対して具体的かつ正確な回答を提供します。

RAGは、使用者モデルと形成者モデルの間に位置し、企業が市販のLLMを微調整せずに活用できる手段を提供します。しかし、元のプロンプトクエリと共に追加のデータソース（多くの場合、ベクトルデータベース）にアクセスする必要があるため、フロントエンド、外部データソース、LLM間のネットワーク接続には、高いパフォーマンスと非常に低いエンドツーエンドの遅延が求められます。

LLMの消費モデルが定義された後、企業はトレーニングと推論モデルのための導入モデルを選択する必要があります。次のブログでは、「構築」と「購入」の選択についてと、それぞれに関連するコストについて検討します。

About me

AIデータセンターネットワークのABC：アプリケーション（ブログ3回シリーズの第二弾）