训练 AI 模型是一项特殊的挑战。开发 Llama 3.1 和 GPT 4.0 等基础大语言模型 (LLM) 需要大量的预算和资源,世界上只有为数不多的几家大型企业能够做到。这些 LLM 有数十亿到数万亿组参数,需要对复杂的数据中心交换矩阵进行调整,才能在合理的作业完成时间内完成训练。例如,GPT 4.0 使用了 1.76 万亿组参数!
为了让这些数字更加直观,可以将每组参数想象成一张扑克牌。一副 52 张扑克牌的厚度大约为 1.91 厘米(0.75 英寸)。一百万张扑克牌堆起来比帝国大厦还高,十亿张扑克牌堆起来有 367 公里(228 英里),可以进入地球的热大气层,一万亿张扑克牌堆起来有 365,321 公里(227,000 英里),大约相当于到月球的距离。
充分利用 AI 投资
对许多企业来说,投资 AI 需要一种崭新的方法:利用自己的数据完善这些基础 LLM,解决特定业务问题或提供更深入的客户参与。但是,随着 AI 的普及,企业希望利用新的方法来优化 AI 投资,从而提高数据私密性和服务差异化。
对大多数人来说,这意味着将部分内部 AI 工作负载转移到私有数据中心。时下流行的“公共云与私有云”数据中心之争同样适用于 AI 数据中心。许多企业对构建 AI 基础架构等新项目望而生畏。挑战确实存在,但并非不可克服。现有的数据中心知识并未过时。您需要的只是一些帮助,瞻博网络可以为您提供指导。
在本系列博客中,我们将探讨企业投资 AI 时的不同考量,以及瞻博网络所开创的“AI 数据中心 ABC”如何驱动不同的方法:应用 (A)、构建 (B) vs. 购买 (B)、成本 (C)。
首先,让我们先来看看为什么 AI 基础架构需要更加专业化。
了解 LLM 和神经网络
为了更好地了解基础架构选项,理解 AI 架构的一些基本原理以及 AI 开发、交付、训练和推理的基本类别将会有所帮助。
推理服务器托管在与互联网连接的前端数据中心,用户和设备可以在这里查询经过全面训练的 AI 应用(如 Llama 3)。使用 TCP,推理查询和流量模式与其他云托管工作负载如出一辙。推理服务器可以实时进行推理,使用普通计算机处理单元 (CPU) 或与训练所用相同的图形处理单元 (GPU),以最低延迟提供最快响应速度,通常通过“到达第一个令牌的时间”和“到达增量令牌的时间”等指标来衡量。从本质上讲,这是 LLM 响应查询的速度,如果规模较大,可能需要大量投资和专业知识才能确保性能的一致性。
另一方面,训练具有独特的处理挑战,需要特殊的数据中心架构。训练在后端数据中心进行,这里的 LLM 和训练数据集会与“恶意”互联网隔离。这些数据中心采用大容量、高性能 GPU 计算和存储平台设计,并且使用 400Gbps 和 800Gbps 网络互连的专用轨道优化交换矩阵。由于存在大量“大象”流和广泛的 GPU 对 GPU 通信,因此必须对这些网络进行优化,才能处理可能需要数月完成的连续训练周期的容量、流量模式和流量管理需求。
完成训练所需的时间取决于 LLM 的复杂程度、训练 LLM 的神经网络层数、为提高准确性而必须调整的参数数量,以及数据中心基础架构设计。但是,什么是神经网络,哪些参数可以完善 LLM 结果呢?
神经网络基础知识
神经网络是一种计算架构,旨在模仿人脑的计算模型。神经网络由一组渐进的功能层组成,其中输入层负责接收数据,输出层负责呈现结果,中间的隐藏层负责将原始数据输入处理成可用信息。一层输出成为另一层的输入,这样就可以在每一层神经节点集(或数学函数)上对查询进行系统地分解、分析和处理,直至得出结果。
例如,下图所示的 LLM 正在通过神经网络训练来识别前四个手写的偶数数字。这个神经网络有两个隐藏层,一个用于处理形状,另一个用于识别模式。将手写数字数据集分割成较小的块,然后输入到模型,在第一层对曲线和直线进行功能处理,然后再发送到第二层,从而识别数据中可能显示分析数字的模式。
调整参数获得更高的 LLM 准确性
每一层内的神经节点都有一个神经网络连接网状结构,AI 科学家可以对每个连接施加权重。每个权重都是一个数值,表示与特定连接的关联强度。例如,位于数据上方象限的曲线,其 2 或 8 的权重较高,而位于同一象限的直线,其 2 或 8 的权重较低。在观察模式时,一组垂直线和直线可能会有很强的联系,4 的权重也会更高,而直线和曲线组合在一起则会有更强的联系,2、6 或 8 的权重也会更高。
在训练开始时,模型的结果不可能准确。不过,随着每次训练的进行,这些神经连接的权重均可进行调整或“调谐”,准确性也会逐步提升。为了进一步区分强连接和弱连接,每条连接都会应用数字偏差,以放大强连接并控制负连接。权重和偏差共同代表了为提高 LLM 准确性而必须调整的参数。
在这个有限的示例中,有 242 个参数必须反复调整,模型才能高精度地识别每个数字。在处理数十亿或数万亿个参数时,可以使用反向传播算法来自动完成这一过程。尽管如此,训练仍然是一个非常漫长的过程,可能会因数据中心底层物理网络的处理延迟而产生滞后或中断。这种延迟被称为尾延迟,除非数据中心网络设计得当,否则尾延迟会给训练过程增加大量时间和成本。
在下一篇博客中,我们将讨论企业如何利用这些基础 LLM 来部署从私有数据中心交付的定制 AI 应用。
想了解其他组织如何构建基础架构来应对这些挑战?请查看我们的把握 AI 机遇虚拟活动,了解 AMD、Intel、Meta、PayPal 等公司的行业洞见。