人们越来越多地使用人工智能 (AI) 来增强 IT 运维团队的能力,这种做法通常称为 AIOps。有些 IT 团队非常抗拒 AIOps,有些团队则在积极接纳这项技术。那么,为什么要选择 AIOps 呢?它能为企业和 IT 团队成员带来哪些好处呢?
我们首先来解答显而易见的问题。鉴于数字化给其他领域劳动力带来的颠覆性影响,IT 团队担心 AIOps 可能会导致自己的工作被电脑所取代,这种担心是可以理解的。
我想对全球各地的 IT 团队说:请放心。AIOps 并不意味着机器人是来跟大家抢工作的。事实上,恰恰相反。
AIOps 已经以形形色色的形式存在很多年了。几年前,它被冠以这个时髦的名字。从那时起,它开始进入瞻博网络等主流技术厂商的产品组合中。有数据明确展示了人们使用 AIOps 的方式和原因。很显然,应对规模扩充和快速增长才是推动人们采用 AIOps 的原因,并不是人们所担忧的减少员工数量。
人类的极限
每个人在工作中能够记住的信息量都是有限的,包括他们能够跟踪的变化数量,以及能够应对新问题的速度。在一定程度上,您可以通过增加团队人手来解决个人极限的问题……但这也只能在一定程度上得到缓解。
如果超过一定的系统复杂性(或增速过快),增加团队人手也无济于事。IT 需要系统性思维,而系统性思维需要能够在大脑中记住大部分(甚至是全部)的变化。我们可以通过为团队划分为不同的责任,在一定程度上绕过这一点,但最终还是需要有人(或团队)来统筹全局,并且能够真正理解“牵一发而动全身”的道理。
当事情变得过于复杂时,我们会寻求抽象解决方案。管理界面、自动化、编排、可视化、分析和报告都是现代 IT 团队的工具。存储、计算和网络的复杂性已由各种级别的虚拟化进行抽象处理,大型 IT 团队甚至会定期(越来越多地通过编程)创建和销毁整个虚拟数据中心。
但是,所有这些抽象层的问题在于,它们模糊了系统变化引起的连锁效应。您可以随心所欲地将存储抽象化,但仍会不可避免地对 SAN 产生某些影响,导致其表现不佳,从而影响生产。
技术越成熟,遇到此类问题的频率就越低。 因此,当遇到这些问题时,要么问题比较模糊,要么很少发生,因而更加难以解决。
增强 IT 团队
我们所仰赖的管理工具在支持我们依靠抽象化来应对复杂性、增长和/或规模问题时,会产生知识方面的差距,而 AIOps 技术能够弥补这一差距。所有的 AIOps 人工智能都会以不同形式学习什么情况才是“正常的”,并在出现异常时感到担忧。在这一点上,它们很像经典的安全信息和事件管理 (SIEM) 系统。
然而,SIEM 只是在出现问题时发出告警。 AIOps 产品(包括瞻博网络的 Marvis 虚拟网络助手)不仅跟踪出错的根本原因,还会跟踪问题的解决方案。它们会学到,如果 A 表现为 X,那么应用 Y 解决方案就能解决问题。而且它们会记住这一案例,即使该问题多年不再出现也不会忘记。
同样,IT 团队几十年来一直使用工单系统进行这项工作。不幸的是,工单系统依赖于搜索,这意味着适当的元数据、语义标记等都变得非常重要:查找所需数据完全依赖于人员准确录入信息,以及在上一次事件中对该工单的详细描述……但众所周知,人类在文档记录方面非常容易出错。
但是,AIOps 人工智能却非常擅长记录。 如果它们能够访问与指定事件相关的所有统计数据、日志、工单、帮助查询等,那么只要这些数据存在,AIOps 就能将所有这些数据存储为与该指定类型事件相关的数据。每当有异常情况发生时,人工智能就可以回顾之前学习的内容,看看新事件是否与之前的事件有任何相似之处,并迅速就如何解决该问题为 IT 团队提供洞见。
如果讲到这里让您觉得 AIOps 真的很实用,那么请做好采纳的准备吧,因为它的好处远不止于此。
面向未来的 AIOps
随着时间推移,AIOps 人工智能不断从 IT 团队的事件中学习,看起来似乎会变得越来越有用,但感觉上需要很长时间才能做到这一点。众所周知,人工智能需要在大型数据集上进行训练,如果 AIOps 试图解决的问题之一是人类在文档方面易于出错,那么我们就不能将人工智能只用于工单系统并寄希望于奇迹发生。
但是,如果人工智能可以不只局限于您的组织,会发生什么情况?如果人工智能可以从所有组织学习,会发生什么情况?如果人工智能背后的供应商不断积累知识,既为已知问题提供硬编码答案,同时又扩展人工智能的知识库(由愿意帮助改进人工智能的组织提供支持),会发生什么情况?
突然之间,人工智能的能力呈现指数级增长,IT 团队不仅可以针对组织过去遇到的令人费解的基础架构错误找到修复方法,还可以针对每个参与组织遇到的那些繁杂的基础架构错误获得修复方法。对解决方案的信心达到某一程度后,我们甚至可以让这些人工智自动应用修复方法,省去了 IT 人员干预的麻烦。
这是否涉及完成 IT 团队以前做的工作?是的。但它会自动处理我们不喜欢且明显不擅长的工作部分。AIOps 指的并不是机器人要跟我们抢工作的时髦用语,而是能将我们从妨碍工作的乏味琐事中解放出来的各种产品,它能让企业轻松应对更大、更复杂和快速增长的网络,而单靠人力是无法做到这一点的。
本系列的其他博客
更多人工智能资源