IT 운영팀의 역량 강화를 위해 인공 지능(AI)의 사용이 점점 증가하고 있으며, 이러한 업무 수행 방식은 일반적으로 AIOps라고 합니다. AIOps에 상당한 거부감을 보이는 IT 팀이 있었고 AIOps를 적극적으로 수용하는 팀도 있었습니다. 그렇다면 왜 AIOps일까요? 조직과 IT 팀의 팀원 개개인에 도움이 되는 요소는 무엇일까요?
모두가 애써 외면하지만 누가 봐도 명백한 문제부터 우선 살펴보도록 하겠습니다. 디지털화가 다른 인력 부문에 야기한 상당한 혼란을 감안한다면, AIOps로 인해 일자리를 컴퓨터에 빼앗길지도 모른다는 IT 팀의 우려는 이해가 됩니다.
하지만 IT 팀은 마음을 놓아도 됩니다. AIOps 때문에 로봇이 여러분의 일자리를 차지하는 일은 없을 겁니다. 실은 정반대입니다.
수년간 AIOps는 어떤 형태로든 사용되어 왔습니다. AIOps라는 용어는 이미 몇 년 전에 만들어졌고, 그 후로 주니퍼를 비롯한 주요 기술 벤더들의 포트폴리오 일부로 자리 잡기 시작했습니다. AIOps의 방법과 이유에 대한 데이터가 존재하며, AIOps 도입의 원동력은 규모와 급속한 성장에 대응해야 할 필요성 때문이지 결코 인원 감축을 위함이 아니라는 점은 분명합니다.
인간의 한계
모든 인간은 추적 가능한 변수의 수, 새로운 문제에 대한 대응 속도 등 작업 기억에서 유지할 수 있는 정보량에 한계가 있습니다. 어느 정도까지는 팀에 인원을 추가해 개인의 한계를 해결할 수 있습니다.
일정 수준의 시스템 복잡성(또는 급속한 성장)을 넘어서면 팀에 인원을 추가해도 소용이 없습니다. IT는 시스템에 입각한 사고가 필요하고, 시스템에 입각한 사고는 전부는 아니지만 대부분의 변수를 머리에 넣어둘 수 있는 능력이 필요합니다. 팀들을 책임 분야에 따라 세분함으로써 어느 정도까지는 이를 우회할 수 있지만, 누군가는(또는 누군가의 그룹은) 전체 그림을 보고 추진 현황과 그 결과를 이해할 수 있어야 합니다.
상황이 지나치게 복잡해지면 우리는 추상적인 개념에 의지합니다. 관리 인터페이스, 자동화, 오케스트레이션, 시각화, 분석, 보고 등은 현대적인 IT 팀의 도구입니다. 스토리지, 컴퓨팅, 네트워킹의 복잡성은 다양한 수준의 시각화에 힘입어 모두 추상화되며, 대규모 IT 팀이 전체 가상 데이터센터를 정기적으로(그리고 점점 프로그램적으로) 만들어 파기하는 수준에까지 이르게 되었습니다.
하지만 이러한 모든 추상화 계층의 문제는 추상화 계층이 시스템 변경의 연쇄적인 효과를 약화시킨다는 점입니다. 여러분은 원하는 대로 스토리지를 추상화할 수 있지만, SAN 수행하는 어떤 작업 때문에 비정상적으로 작동하고 시스템이 악영향을 받는 경우도 발생할 수 있습니다.
기술이 충분히 발달할수록 이러한 문제에 직면하는 빈도는 줄어듭니다. 따라서 이러한 문제에 직면할 때 문제가 더 모호하거나 매우 드물게 발생하여 해결하기가 더욱 어렵습니다.
IT 팀의 강화
복잡성, 성장 및/또는 확장에 대응하는 추상화에 의존할 수 있을 때 AIOps 기술은 우리가 의존하는 관리 도구에 의해 발생하는 지식 격차를 해소합니다. 어떤 형태로든 모든 AIOps AI는 “정상”적인 상황이 어떤 모습인지 학습하고 상황이 비정상적으로 보이면 우려합니다. 여기서 AIOps AI는 기존의 SIEM(Security Information and Event Management) 시스템과 거의 유사합니다.
하지만 SIEM은 무언가 잘못되었을 때 경고를 보낼 뿐입니다. 주니퍼 네트웍스의 Marvis Virtual Network Assistant를 비롯한 AIOps 제품은 잘못된 것은 물론이고 문제 해결 방식도 추적합니다. AIOps 제품은 A가 X처럼 작동하는 경우 Y 솔루션을 적용하면 문제가 해결된다는 점을 학습합니다. 또한 문제가 몇 년 동안 다시 발생하지 않아도 이를 기억합니다.
다시 한 번 강조하지만 IT 팀들은 티켓팅 시스템을 이용해 수십 년 동안 이를 수행해오고 있습니다. 안타깝게도 티켓팅 시스템은 검색에 의존하며, 이는 적절한 메타데이터, 시맨틱 태그 지정 등이 모두 중요해짐을 의미합니다. 필요한 데이터를 찾는 일은 정확하게 정보에 로깅하여 마지막 인시던트 동안 해당 티켓과 관련하여 장황하게 설명한 사람에 전적으로 의존합니다. 그런데 인간은 문서화에 대단히 서툽니다.
하지만 AIOps AI는 문서화를 정말 훌륭하게 수행합니다. 주어진 인시던트와 관련된 모든 통계, 로그, 티켓, 도움말 쿼리 등에 액세스하면 AIOps AI는 특정 유형의 인시던트가 존재하는 한 해당 인시던트와 관련된 것으로 그러한 모든 데이터를 저장할 수 있습니다. 비정상적인 일이 발생할 때마다 AI는 학습한 모든 것을 검토해 새 이벤트가 이전의 이벤트와 유사한지 확인해 IT 팀에 문제 해결 인사이트를 제공할 수 있습니다.
이것이 실제로 유용해 보이기 시작하면 단단히 준비하시기 바랍니다. 곧 훨씬 좋은 이야기를 들으실 테니까요.
미래로 나아가는 AIOps
IT 팀의 이벤트에서 AIOps AI가 학습하면 시간 경과에 따라 서서히 더욱 유용해지는 것처럼 느껴지지만, 목표에 도달하는 데 오랜 시간이 걸리는 것처럼 느껴질 때도 있습니다. AI는 대규모 데이터세트를 학습해야 한다는 것은 상식이며, AIOps가 해결을 시도하는 문제들 중 하나가 서툴기 짝이 없는 인간의 문서화 능력이라면, 우리는 티켓팅 시스템에서 AI를 정확하게 지적하여 마법과 같은 일을 일으킬 수 없습니다.
하지만 AI를 여러분의 조직에만 한정하지 않는다면 어떨까요? AI가 모든 조직에서 학습하면 어떻게 될까요? 알려진 문제에 대한 하드코딩된 답변의 형태로, 그리고 AI의 개선을 기꺼이 지원하려는 참여 조직들의 도움으로 AI의 기술 자료를 확장함으로써, AI를 이용하는 벤더가 지식을 끊임없이 추가하면 어떨까요?
갑자기 AI의 성능이 기하급수적인 성장을 보이며, IT 팀은 과거에 그들 자신의 조직이 직면했던 불분명한 인프라 오류에 대한 해결책뿐 아니라, 모든 참여 조직이 직면한 불분명한 인프라 오류에 대한 해결책에도 접근할 수 있습니다. 그리고 솔루션에 대한 신뢰도가 특정 임계치를 넘어서면 IT의 개입 없이 자동으로 해결책을 적용하도록 AI를 설정할 수도 있습니다.
여기에 IT 팀이 예전에 수행하던 작업이 포함될까요? 예, 그렇습니다. 하지만 이것은 우리 모두가 몹시 싫어하는 서툰 작업의 일부에 대한 자동화입니다. AIOps는 인간의 일자리를 대체하는 로봇이 아니라, 인간의 작업 수행을 방해하는 또 다른 지루함에서 우리를 해방시켜주는 제품을 지칭하는 용어입니다. AIOps를 통해 조직은 인간의 힘만으로 대처할 때보다 더욱 크고 복잡하며 급속하게 성장하는 네트워크에 대처할 수 있게 되었습니다.
이 시리즈의 추가 블로그
인간의 육감에 의한 의사결정을 매번 뛰어넘는 AI를 활용한 의사결정
네트워크의 이상 징후 탐색 및 몇 가지 기본 제공 도구
추가 AI 리소스