在本系列的第一篇博客中,我们介绍了训练 LLM 所面临的挑战。上一篇博客探讨了企业投资 AI 的 LLM 消费模型(开发者 (Maker)、采用者 (Taker)、塑造者 (Shaper) 和 RAG)。在本篇博客中,我们将探讨 AI 应用的部署模式以及每种模式的成本考量。
AI 的普及正在推动 AI 数据中心的增长和投资增势。曾经几乎完全被云提供商垄断的企业现在正通过私有数据中心扩大其 AI 数据中心的覆盖范围,希望通过这种方式对 AI 工作负载和应用施加更多控制。
充分利用 AI 数据中心投资
根据 IDC 的预测,到 2027 年,企业对 AI 数据中心交换设备的投资将增长到 10 亿美元,年复合增长率为 158%。同期,云提供商交换量预计将继续以 91.5% 的年复合增长率强劲增长,其中部分企业打算将部分训练和推理工作负载剥离到私有数据中心,转而采用混合云战略。
大多数企业发现,想要利用 GenAI 取得有意义的成果,就必须在模型中使用自己的企业数据。通过 AI 实现数字化转型并不像强制要求员工使用公共 LLM 来开展工作那么简单。
构建 vs. 购买:这是一个值得讨论的问题
是构建自己的私有数据中心,还是从公共云提供商那里购买 AI 服务,抑或使用混合云模式,归根结底都要考虑几个关键问题:
- 数据敏感性:您处理的敏感数据或专有数据是需要留在本地私有云中,还是需要遵守数据主权规则,将数据限制在某个地理边界?技术、金融、政府和医疗用例更有可能需要私有数据中心来保护知识产权或避免诉讼不确定性。
- 专业知识:您的内部数据科学或网络专业知识有多深厚?如果有合适的人员,部署私有数据中心是一个不错的选择。如果没有,就只能开发或外包专业知识。
- 地理位置:您在预期的地点是否有足够的设施来支持数据中心的需求?大型训练集群的每个 GPU 功耗为 700W,可能需要对现有设施进行昂贵的电力升级。或者,企业可以选择将 AI 集群分布到多个数据中心位置,确保电力在预算范围之内。包括 RAG 在内的推理性能可能会推动 AI 数据中心进一步向边缘发展,因为小型 AI 集群在物理上更接近用户。例如,部署在生产车间的 IoT 应用。混合架构支持企业在能力范围内的方面进行构建、在能力范围外的方面进行购买,从而在最有利的位置部署用于训练、推理和 RAG 的 AI 功能。
- 产品上市时间:您的产品上市时间压力有多大?如果时间紧迫,公共云服务可以加快产品上市时间,为正确规划私有数据中心部署提供宝贵的时间。您的 AI 转型之路进展如何?您是否正处于起步阶段,仍需要进行大量试验来确定哪种方法适合您的业务?如果是这样,那就选择公共云。不过,如果您致力于发展 AI 技术,并制定了如何在不同的业务部分使用 AI 的计划,那么经济分析通常会引导您对私有云基础架构进行投资。
企业战略:与许多云转型项目一样,AI 方案通常从部门层面开始,创建 AI 集群孤岛来解决特定的客户或运维挑战。随着企业制定具有更加统一和共享的 AI 基础架构的总体企业战略,AI 投资成本可以更有效地摊销,从而使私有数据中心的 AI 投资符合现有的企业预算。
最初,对于 AI 技术的创新者和早期采用者来说,公共云是唯一的选择。虽然公共云仍然是大多数 AI 战略的重要组成部分,但对数据安全和成本的担忧正使私有数据中心和混合云架构成为主流。在瞻博网络最近举办的把握 AI 机遇虚拟活动上,客户、合作伙伴和行业专家讨论了各自的混合云用例和策略,包括金融机构的数据安全问题以及使用混合云平衡成本和性能的策略。
成本:在昂贵的 AI 世界中实现投资回报最大化
无论采用哪种部署模式,AI 部署成本高昂早已不是什么秘密。AI 的成本是以预算、专业知识和时间来衡量的,而所有这些都会受到资源限制。专业知识和时间是可变成本,因企业而异,AI 的硬性投资则是由市场所驱动,仅面临分配预算的挑战。
每台 GPU 服务器的成本约为 40 万美元,仅一个小型 AI 数据中心的基础架构成本就高达数百万美元。不过,现在或许可以松口气了。PyTorch 2.0 等 AI 框架消除了对 NVIDIA 芯片组的紧密集成和依赖。这为 Intel、AMD 和其他厂商推出具有竞争力的 GPU 产品打开了大门,从而打破了市场格局,使成本趋于正常。
按照目前的水平,我们很容易想当然地认为,从公共云提供商那里购买 AI 服务要比建立私有 AI 数据中心更具成本效益。但 ACG Research 最近进行的一项总体拥有成本 (TCO) 分析表明,情况并非如此。通过比较私有 AI 数据中心与同类公共云托管 AI 服务的三年总体拥有成本,ACG 发现私有数据中心模型的总体拥有成本节省了 46%,这主要是由于公共云服务的经常性成本较高。
ACG 报告进一步分析了构建 AI 数据中心的成本,并将 InfiniBand 网络与以太网的成本进行了比较。ACG 的研究结果表明,与 InfiniBand 网络相比,部署采用 RoCE v2 的瞻博网络以太网和 Juniper Apstra 可节省 55% 的总体拥有成本,其中前三年可节省 56% 的运营成本和 55% 的资本支出。
最终结果表明,建立 AI 数据中心是抵消公共云溢价的一种经济高效的选择,而建立基于以太网的 AI 交换矩阵可进一步降低硬性成本,利用现有的内部专业知识实现快速部署。
简化私有企业和混合 AI 部署
在投资私有云或混合云模式时,应用需求、部署模式和成本是重要的考虑因素。但企业不必孤军奋战。AI 对大多数企业来说都是新事物,AI 基础架构确实带来了复杂的挑战,但它并不是巫术——您当前的数据中心网络知识大部分都适用。瞻博网络在 AI 技术方面进行了投资,积极推动创新,同时简化通往 AI 的途径。瞻博网络的 Ops4AI 实验室采用多厂商架构,包括 GPU 计算、先进的存储平台,以及 QFX 系列交换机、PTX 系列路由器和 Juniper Apstra 网络自动化等经过轨道优化的瞻博网络以太网交换矩阵,在面向企业开放的同时,能够在部署前对定制的 AI 集群设计进行资格鉴定。AI 创新实验室使用开源和自主模型 (BYOM),帮助客户消除不确定性。
瞻博网络 Ops4AI 实验室与您相伴
瞻博网络的 Ops4AI 实验室也是推动我们瞻博网络验证设计 (JVD) 管道的引擎,该管道包含经过验证的多供应商 AI 数据中心。通过 JVD,企业可以将支持的计算和存储基础架构与瞻博网络先进的 AI 数据中心设计进行混合和匹配,从而消除臆测,简化复杂的设计和部署。
利用 Juniper Apstra 网络自动化,企业既可设计用于定制部署的蓝图,也可通过瞻博网络的 Terraform 提供商下载由 GitLab 托管的 AI 蓝图,用于后端计算、后端存储及前端管理。
如需了解有关瞻博网络 Ops4AI 实验室、客户 AI 用例以及我们的 AI 合作伙伴生态系统(包括 NVIDIA、AMD、WEKA、Intel 等)的更多信息,请收听瞻博网络“把握 AI 机遇”AI 虚拟活动的重播,或点击此链接访问我们的 AI 数据中心登陆页面。