为了利用人工智能 (AI) 的最新技术创新,企业 IT 组织面临着“必须有所作为”的压力。生成式 AI 已经迅速从研发的边缘领域转变为各行各业董事会的当务之急。但大多数企业网络团队仍会感到无所适从。
虽然在为 AI 工作负载构建新数据中心时,琳琅满目的新技术和新协议让人眼花缭乱,但事实上,企业当前的大部分网络基础架构和专业知识仍然适用。与我们密切合作的许多公司都惊讶地发现了这一事实。
在瞻博网络,我们正在帮助客户应对与部署和运维新 AI 数据中心架构相关的独特挑战。事实上,我们在 7 月份推出 AI 数据中心(“Networking for AI”)解决方案时就强调了 Juniper™ Apstra 数据中心交换矩阵管理与自动化软件发挥的关键作用。实施复杂、专用的 AI 数据中心(如计划型交换矩阵)已然成为过去式。从第 0 天设计到第 1 天部署,再到第 2 天及以后的持续运维,Apstra 可在 AI 数据中心网络生命周期的各个阶段为您提供指导。请阅读这份全新解决方案简报,了解所有详细信息。
利用 Juniper Apstra 模板简化 AI 数据中心的部署和运维
网络团队的任务是构建新的人工智能数据中心 (AI DC) 基础架构,充分利用人工智能的最新技术创新。AI 流量模式(通常被称为“大象流”)的独特性质带来了一系列独特的挑战和要求,需要使用反应迅速、具有前瞻性的网络和管理方法来加以应对。对于典型的企业数据中心组织来说,这是一个全新的世界,他们需要最大限度利用昂贵的图形处理器 (GPU) 并尽可能减少作业完成时间 (JCT),从而优化 AI 数据中心的经济效益。
幸运的是,几乎所有网络团队都熟知的以太网基础架构就能应对这些挑战,尽管 AI 数据中心确实需要新的网络架构和新技术来调整以太网交换矩阵,以达到优化性能的目的。Apstra 可轻松应对新的 AI 数据中心架构和交换矩阵调整带来的挑战。利用现有的 Apstra 蓝图,即可在模板设计器中进行 AI 数据中心设计。与如今耗时的手动方法相比,使用 Apstra 自动调整 AI 训练网络可为您节省大量时间,避免招致挫败感。这些新功能在现有的 Apstra 许可证范围内均免费提供。
与传统工作负载相比,为 AI 工作负载设计和配置 AI 数据中心交换矩阵需要应对独特的需求,因而面临更多挑战。利用 Apstra 的 AI 群集模板设计器,您可以根据特定资源需求和工作负载,快速、轻松地量身定制经过验证和优化的 Apstra 模板。只需指定最小输入(如所需 GPU、服务器和机架的数量),该工具就能生成定制机架模板,确保有效利用资源并尽可能减少潜在的性能瓶颈,只需点击几下,即可稳定可靠地扩展网络。不知道什么是“轨道优化”设计?没关系,让 Apstra 教您如何打造。Apstra 可通过持续验证,确保数据中心网络的运行状态与模板中声明的意图相匹配。
Apstra AI 群集模板设计器
受限于独特的设计要求和庞大的连接数量,AI 训练环境的部署十分复杂且容易出错。Apstra 蓝图可提供布线图,结合机架标高信息提供精确的链路和端点列表,数据中心技术人员可利用该列表完成高精度布线。
GPU 服务器中的网络接口卡 (NIC) 在 AI 数据中心设计中发挥着重要作用。为全链路路由配置 GPU NIC 非常费力,需要了解整个网络交换矩阵。用于人工智能/机器学习的 Apstra 主机代理可自动为 GPU NIC 配置正确的 IP 地址和路由信息,这些信息来自 GPU 网络蓝图。
Apstra GPU/NIC 监测
在等待一卡难求的 GPU 到货期间,预先为 AI 数据中心做好准备
AI 加速器(如 GPU)既昂贵又稀缺。许多公司在等待数月的交货期后,终于等到了昂贵的 GPU,但还是需要花费数周时间来部署和配置基础架构,在此期间只能让这些 GPU
闲置。
Apstra 可提供稳健的框架,用于在购置任何物理硬件之前对网络设计进行数字化建模和管理,帮助企业有效简化网络规划和部署流程。在基础架构运抵仓库之前,可对整个 AI 数据中心进行预处理。有了 Apstra,几天内即可完成部署,无需再浪费数周时间。
AI 数据中心交换矩阵自动调整
通过以太网训练 AI 模型需要新的拥塞管理和流量控制技术,如数据中心量化拥塞通知 (DCQCN)。通过调整 AI 交换矩阵来优化性能并利用这些复杂的协议,为企业带来了巨大的运维挑战。 手动调整技术不仅费时费力、效率不彰,而且错误频出。
有了 Apstra,几分钟内即可自动调整交换矩阵。调整交换矩阵的目的在于实现一种微妙的平衡,既要最大限度提高吞吐量,又要尽可能减少数据包丢失。随着交换机缓冲区逐步被填满,DCQCN、显式拥塞通知 (ECN) 和优先流量控制 (PFC) 等组件将会用于流量优化。Apstra 可持续监测关键的 RoCE v2 拥塞指标,并重新配置交换机上的 DCQCN,以防止数据包丢失。基于实时网络分析的 DCQCN 动态参数优化可确保高效运维。此应用程序目前可从 GitHub 下载,持有任何 Apstra 许可证均可免费使用。
Apstra AI 数据中心交换矩阵自动调整应用程序
Juniper Apstra 可大幅缩短企业 AI 项目的价值实现时间
欢迎来我们的瞻博网络 Ops4AI 实验室看看,客户正在那里测试模型性能和数据中心网络设计的有效性,从而缩短 AI 的价值实现时间。面对高层激进的 AI 目标,企业网络团队大可不必惊慌失措。Juniper Apstra 能助您一臂之力。
阅读解决方案简介了解更多,并通过我们的 AI 数据中心解决方案页面深入探索。