在本系列的第一篇博客中,我们探讨了开发基础大语言模型 (LLM) 的复杂性,以及将开发置于大多数企业之外所需的大量资源。现在,我们来了解一下所有企业可以利用这些基础 LLM 为自己的私有数据中心提供哪些选项。
即使是一个拥有 128 个 GPU 的小型 AI 数据中心,其部署成本也高达数百万美元,因此效率投资对于控制成本至关重要。瞻博网络所开创的“AI 数据中心 ABC”就是投资方法的驱动力:应用 (A),构建 (B) vs. 购买 (B)、成本 (C)。在本篇博客中,我们将深入探讨应用需求如何影响企业 AI 投资的 AI 消费模型。
应用的复杂性
在规划 AI 投资时,首先必须了解 AI 应用的目标、目的和预期结果。您的用例是用于增强客户体验的通用用例,例如 AI 支持助手、文档分析器或技术文档助手?还是针对特定行业或组织的更加个性化和差异化的 AI 应用?定制化程度的提高会让本就复杂的开发过程更加复杂,从而影响底层 LLM 或应用的消费模型。
麦肯锡咨询公司指出了部署 AI 应用的三种方法:开发者 (Maker)、采用者 (Taker) 和塑造者 (Shaper)。
开发者是行业里的巨头
开发者是世界上为数不多同时拥有财力和专业知识的公司,他们可以开发自己的基础 LLM,并基于互联网数据进行训练。这些公司包括 Google(Gemma、Gemini)、Meta (Llama)、OpenAI (GPT)、Anthropic (Claude)、Mistral (Large, Nemo) 和 Amazon (Titan)。大多数未将开发 LLM 作为核心竞争力的企业将会走采用者或塑造者的道路。
采用者利用开箱即用的现有 AI 应用
企业在部署复杂程度适中的服务(如通用客户聊天机器人或将自然语言处理 (NLP) 连接到现有数据库)时,无需定制现成的 LLM。企业可以“采用”(Take) 基于预训练 LLM 的现有 AI 应用(无论需要授权的还是开源),并部署该模型进行推理。
如今,这些应用已成为大多数企业的必备工具。这意味着可能几乎没有竞争差异,但如果应用实现了预期的结果,更低的复杂性将简化部署并消除不必要的开支。通过 AI 资源库 Hugging Face,企业可以访问超过 40 万个预训练 LLM、15 万个 AI 应用和 10 万个数据集,因此企业可以有很多选择来快速高效地部署 AI。
塑造者将别人的 LLM 变为自己的 LLM
对于需要提高差异化竞争优势或定制工作流程应用的企业来说,现成的 LLM 或应用可能无法满足需要。塑造者使用预先训练好的 LLM,并会使用自己的专有数据集进行微调来“塑造”(Shape) 模型。这样,LLM 就能对任何提示做出非常具体和准确的响应。受益于这种模型的应用包括(但不限于):
- 工作流程自动化,即通过改进 LLM 来完成特定的工作职能,使工作变得更轻松或更有趣
- AI 协助比较内部政策文件、监管规则或法律修正案,帮助确定需要特别考虑的差异
- 对 Copilot 进行特定操作系统、CLI 和文档方面的训练,简化代码开发或文档搜索
充分运用 RAG 推理
正如本系列第一篇博客所述,推理系统可向最终用户和设备提供训练有素的 AI 应用。根据模型的大小,推理可以部署在单个 GPU 或服务器上,也可作为多节点部署,将应用分布到多个服务器上,从而提高规模和性能。
“检索增强生成”(RAG) 是一种相对较新的创新成果,可为企业提供定制 AI 模型开发和/或部署等有趣技术。RAG 通过提供从外部数据源获取的补充数据来增强预训练 LLM。使用 RAG,可以从用户查询中获得向量嵌入。与该向量嵌入最匹配的查询将用于查询外部数据源的数据。获得向量嵌入后,这些最相关的文本或数据块,连同原始提示,将提供给 LLM 进行推理。通过提供与原始提示相关的本地数据,LLM 可以利用这些附加数据和自己的理解提供答案。RAG 无需对 LLM 进行再训练,就能对客户或设备的查询做出具体而准确的回应。
RAG 介于“采用者”和“塑造者”模型之间,使企业无需微调即可使用现成的 LLM。不过,由于目前必须在访问原始提示查询的同时访问其他数据源(通常是向量数据库),因此前端、外部数据源和 LLM 之间的网络连接必须具备高性能,且端到端延迟必须非常低。
在定义了 LLM 消费模型后,企业必须为其训练和推理模型选择部署模型。在本系列的下一篇博客中,我们将探讨“构建 vs. 购买”选项,以及两种选择的相关成本考量。