Im ersten Blog dieser Reihe haben wir betrachtet, wie komplex die Entwicklung von grundlegenden Large-Language-Modellen (LLMs) ist, und welche gewaltigen Mengen an Ressourcen dafür benötigt werden, weshalb diese Entwicklungen für die meisten Unternehmen nicht möglich sind. Nun wollen wir uns daher die Optionen ansehen, die allen Unternehmen zur Verfügung stehen, um diese grundlegenden LLMs für ihre eigenen privaten Datencenter zu nutzen.
Schon die Bereitstellung eines kleinen KI-Datencenters mit 128 GPUs kann Millionen Dollar kosten, deshalb ist es wichtig, auf Effizienz zu achten, um die Kosten niedrig zu halten. Dieser Investmentansatz orientiert sich an am ABC der KI-Datencenter von Juniper: Applications (Anwendungen), Build (Entwicklung) vs. Buy (Kaufen) und Cost (Kosten). In diesem Blog untersuchen wir, welchen Einfluss die Anwendungsanforderungen auf die LLM-Nutzungsmodelle für Unternehmen haben, die in KI investieren.
Komplexität der Anwendung
Bei der Planung Ihrer KI-Investition sollten Sie zunächst die Ziele und Ergebnisse definieren, die Sie mit Ihrer KI-Anwendung erreichen wollen. Haben Sie eher generische Anwendungsszenarien im Sinn, beispielsweise einen KI-gestützten Support-Assistenten, ein Tool zur Dokumentenanalyse oder einen Assistenten für technische Dokumentationen zur Verbesserung der Kundenerfahrung? Oder planen Sie eine eher individualisierte und spezialisierte KI-Anwendung, die auf eine bestimmte Branche oder ein Unternehmen zugeschnitten ist? Je individueller eine Anwendung gestaltet werden soll, desto komplexer wird der ohnehin schon komplizierte Entwicklungsprozess, was sich wiederum auf die Nutzungsmodelle der zugrundeliegenden LLM oder Anwendung auswirkt.
McKinsey Consulting identizifiert drei Ansätze für die Bereitstellung einer KI-Anwendung: Maker (Macher), Taker (Nehmer) und Shaper (Gestalter).
Maker sind die großen Fische im Teich
Zur Gruppe der Maker gehören die wenigen Unternehmen weltweit, welche die Expertise und die finanziellen Mittel haben, um ihre eigenen grundlegenden LLMs zu entwickeln und sie anhand von Internetdaten zu trainieren. Prominente Beispiele für solche Unternehmen sind Google (Gemma, Gemini), Meta (Llama), OpenAI (GPT), Anthropic (Claude), Mistral (Large, Nemo) und Amazon (Titan). Für die meisten Unternehmen stellt die LLM-Entwicklung jedoch keine Kernkompetenz dar, daher agieren sie eher als Taker oder Shaper.
Taker verwenden vorgefertigte KI-Anwendungen
Unternehmen, die weniger komplexe Dienste bereitstellen, beispielsweise einen generischen Chatbot für Kunden, oder die eine Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) in eine bestehende Datenbank implementieren möchten, können dafür vorgefertigte LLMs ohne größere Anpassungen nutzen. Diese Unternehmen können also eine bestehende KI-Anwendung nehmen, die auf einem vortrainierten LLM basiert, und dieses Modell für Inferenz verwenden.
Solche Anwendungen sind heute Grundvoraussetzungen für die meisten Unternehmen. Das hat zur Folge, dass es möglicherweise nur geringe Differenzierung im Wettbewerb gibt, aber wenn die Anwendung die gewünschten Ergebnisse liefert, sorgt die verringerte Komplexität für eine effizientere Bereitstellung und unnötige Kosten können vermieden werden. So bietet ein Repository von KI-Bibliotheken wie Hugging Face Unternehmen Zugang zu mehr als 400.000 vortrainierten LLMs, 150.000 KI-Anwendungen und 100.000 Datensätzen. Es bestehen also zahlreiche Möglichkeiten für Unternehmen, KI-Bereitstellungen schnell und effizient vorzunehmen.
Shaper passen LLMs nach ihren Vorstellungen an
Für Unternehmen, die auf eine höhere Differenzierung im Wettbewerb oder auf Anwendungen für benutzerdefinierte Workflows setzen, sind vorgefertigte LLMs oder Anwendungen unter Umständen nicht zufriedenstellend. Diese Shaper greifen daher auf ein vortrainiertes LLM zurück und passen das Modell dann anhand ihrer eigenen Datensätze an ihre individuellen Anforderungen an. Das Ergebnis ist ein LLM, das auf jede Anfrage sehr spezifische und akkurate Antworten ausgibt. Zu den Anwendungen, die von einem solchen Modell profitieren, gehören unter anderem:
- Workflow-Automatisierungen, bei denen ein LLM gezielt für die Ausführung einer bestimmten Tätigkeit eingesetzt wird, um die Arbeit zu erleichtern oder weniger monoton zu gestalten
- KI-Assistenten für den Abgleich von Dokumenten wie interne Richtlinien, regulatorische Vorschriften oder gesetzliche Änderungen, um Abweichungen zu identifizieren, die besonderer Aufmerksamkeit bedürfen
- Copiloten, die mit speziellen Betriebssystemen, CLIs und Dokumentationen trainiert werden, um die Entwicklung von Code oder das Durchsuchen von Dokumenten zu vereinfachen
RAG-Inferenz nutzen
Wie wir im ersten Blog dieser Reihe gezeigt haben, liefern Inferenzsysteme trainierte KI-Anwendungen für Endbenutzer und Geräte. Je nach Größe des gewählten Modells kann Inferenz auf einzelnen GPUs oder Servern oder als Multinode-System bereitgestellt werden, bei dem die Anwendung zur Verbesserung von Leistung und Skalierung über mehrere Server verteilt wird.
Die innovative Technologie Retrieval Augmented Generation (RAG) eröffnet Unternehmen vielversprechende neue Möglichkeiten zur benutzerdefinierten Entwicklung und/oder Bereitstellung von KI-Modellen. Mit RAG wird ein vortrainiertes LLM durch zusätzliche Daten verbessert, die aus externen Datenquellen stammen. Bei der Verwendung von RAG wird aus einer Nutzeranfrage eine Vektoreinbettung generiert. Die Treffer, die dieser Vektoreinbettung am nächsten kommen, werden verwendet, um Daten aus einer externen Datenquelle abzufragen. Anschließend werden die relevantesten Textblöcke oder Datensätze zusammen mit der ursprünglichen Anfrage zur Inferenz an das LLM weitergeleitet. Indem Daten bereitgestellt werden, die aus lokalen Quellen stammen und die für die ursprüngliche Anfrage relevant sind, kann das LLM Antworten generieren, für die sein eigenes Verständnis mit diesen zusätzlichen Daten angereichert wird. Ohne erneutes LLM-Training liefert RAG so eine spezifische und akkurate Antwort auf die Kunden- oder Geräteanfrage.
Damit stellt RAG einen Mittelweg zwischen Taker- und Shaper-Modellen dar und eröffnet Unternehmen die Möglichkeit, vorgefertigte LLMs ohne Feinabstimmung zu verwenden. Allerdings müssen aufgrund der zusätzlichen Datenquelle (häufig eine Vektordatenbank), auf die neben der ursprünglichen Anfrage zugegriffen werden muss, die Netzwerkverbindungen zwischen dem Front-End, der externen Datenquelle und dem LLM eine extrem hohe Leistung mit sehr geringer Latenz aufweisen.
Nachdem sie ihre bevorzugten LLM-Nutzungsmodelle festgelegt haben, müssen Unternehmen das Bereitstellungsmodell für ihr Training und die Inferenzmodelle auswählen. Im nächsten Blog dieser Reihe besprechen wir die „Aufbauen im Vergleich zu Kaufen“-Optionen und die jeweils damit verbundenen Kosten.