最近,我与 HPE Networking 首席 AI 官 Bob Friday 参加了 Tech Field Day 的一期播客节目。这期节目的核心观点是“数据中心网络需要 AI”,对此我们深表赞同。Bob 过去 10 年中一直致力于将 AIOps 技术引入网络领域,堪称该领域的先驱。他首先阐述了 HPE Networking 的自我驱动型网络™ 之旅,关于这一愿景,他已在近期发布的六篇博文系列中详细阐述。随后,我们深入探讨了 AI 对数据中心网络来说具体意味着什么,并且概括讨论了我们围绕这一领域开展的一些工作。这将是本系列两篇简短博文探讨的核心内容。
是否有需要解决的问题?
人们不敢触碰自己的网络。这听起来很荒谬,但大多数网络工程师在变更前后及变更过程中都非常紧张,无论是部署新服务还是进行固件升级等操作,皆是如此。这一过程压力重重,运维人员担心一旦触碰网络就可能导致故障。
数据中心网络存在这一现象的根本原因是复杂性:需要理解几十种协议的字母缩写,管理数千种物理和逻辑设备的配置,还要协调多家基础架构供应商。诸如此类的问题还有很多。这种复杂性加上运维人员遭遇的海量数据洪流,再加上目前市场上存在许多能力不足的故障排除工具,使数据中心网络团队常常不堪重负。他们最终淹没在海量数据中,却缺乏洞察力。
这种状况使智能 AI 和机器学习算法有了用武之地:数据量非常庞大,单靠人工很难筛选,但实际上这些数据大多具有清晰的结构。
这与技术无关,而是关乎您的需求
很多时候,技术相关讨论的起点就是错误的:从技术本身开始。很多人都曾听到过组织高层下达这样的命令:“作为一家现代化公司,我们必须使用 AI,否则就会被时代所淘汰。” 或者您也许从供应商那里听到:“您需要在数据中心网络中使用 AI。” 但这些都是没有目标的起点。无论讨论何种技术,起点都应该是:您的目标是什么?您面临哪些需要解决的问题?
我们的目标一直非常明确——提供最佳用户体验,无论这个“用户”是数据中心网络运维人员,还是依赖数据中心来使用应用的最终用户(无论其是否意识到这种依赖性)。过去 10 年间,瞻博网络成功开发并应用了 AI 技术,首先将其应用于 Wi-Fi 领域,随后扩展至其他园区和分支机构领域。在数据中心领域,我们凭借后发优势,能够从园区网络的经验教训中汲取全部洞察。
数据中心网络运维挑战
如果目标是优化用户体验,那么对于数据中心从业者来说,需要解决的挑战就是与客户紧密合作。我们将这些挑战分为三类:缺乏洞察、速度不足和可靠性欠佳。
- 洞察。 在典型场景中,企业网络负责人会接到一位愤怒高管的来电,投诉 CRM 应用、ERP 系统或其他关键应用出现故障。一定是网络出了问题,对不对?其实未必。通常,网络团队对网络上运行的应用洞察有限。但我们要明确一点,数据中心的关键意义在于托管并交付最终用户所需的应用,无论是于消费者而言相对轻量级的应用,还是对企业至关重要的关键应用。
- 速度。另一个常见问题是,管理 IT 基础架构时,速度或敏捷性不足。出现紧急的新业务需求(如需要快速增加容量来应对突如其来的需求激增)时,公司现有的标准变更管理流程或维护窗口就显得力不从心——流程响应不够迅速,或者过于僵化。
- 可靠性。最后,可靠性欠佳且停机时间过长是一个持续存在的问题。几乎任何一家企业都有可能因一次仓促的变更或手动配置错误而导致整个网络瘫痪,对公司的声誉和财务造成巨大影响。更不用说对您的职业生涯造成的负面影响了。如果没有快速、强大的自动化恢复和回滚功能,您可能需要数小时甚至数天的密集工作才能恢复服务。数据中心网络运维人员常常被迫处于被动应对模式,忙于处理这些突发事件,而非专注于有利业务发展的前瞻性战略 IT 方案。
在我们盲目将 AI 视为万能良药之前,我们必须彻底了解这些问题,然后扪心自问:AI 能否帮助解决这些问题?答案是,绝对可以。
AI 非常必要,但还不够
然而,AI 并不能解决您遇到的每一个 NetOps 问题。AI 非常必要,但还不够。我们需要的是既能运用 AI(本质上具有一定的概率性),又能采用基于意图的网络等其他确定性方法的系统。
配置正确率达到 99% 是否就可以了?当然不行,您需要 100% 的准确性,这需要基于规则的确定性软件。但在第 2 天,数据中心实际运行于各种不可预测的环境时,情况就不同了。如果您有一套系统能够基于各种症状告诉您所遇问题的根本原因,而且准确率为 99%,那么这套系统很可能优于您现有的解决方案。这就是 AI 的强大之处,它能够处理海量数据并提取人类不易发现的关联性。
将这两项技术(即 AI 与基于意图的网络)相结合,您就可以为最终用户提供无与伦比的网络运维体验和应用体验。
在本博文系列的第二篇(终章篇)中,我们将深入探讨如何利用 AIOps 解决数据中心网络中的顽固挑战。