얼마 전, HPE Networking 최고 AI 책임자 Bob Friday 씨와 함께 최근 Tech Field Day 팟캐스트에 참여했습니다. 이 팟캐스트 쇼의 첫 주제는 ‘데이터센터 네트워킹의 필수 요소, AI’였는데, 저는 이런 생각에 전적으로 동의합니다. 지난 10년간 AIOps를 네트워킹에 도입하는 선구자 역할을 해온 Bob은 최근 6부작 블로그 시리즈에서 다뤘던 HPE Networking의 셀프드라이빙 네트워크(Self-Driving Network™)를 향한 여정을 설명하며 토론을 시작했습니다. 이어서 우리는 AI가 데이터센터 네트워크에 어떤 의미를 가지는지 더 깊이 살펴보고, 이 분야에서 우리가 진행해 온 여러 작업들을 소개했습니다. 바로 이 내용을 2부로 구성된 짤막한 블로그 시리즈에서 다룰 계획입니다.
해결해야 할 진짜 문제는 무엇일까요?
사람들은 네트워크에 손대기를 두려워합니다. 터무니없는 소리 같지만, 대부분의 네트워크 엔지니어들은 신규 서비스를 프로비저닝하거나 펌웨어를 업그레이드하는 등의 변경 작업을 수행하기 전이나 수행하는 도중, 심지어 수행한 후에도 항상 긴장을 늦추지 않습니다. 이 과정에서 많은 스트레스를 받게 되며, 운영자들은 네트워크를 잘못 건드렸다가 문제를 일으킬까 봐 걱정합니다.
데이터센터 네트워킹에 문제가 생기는 근본적인 원인은 복잡성입니다. 이해해야 할 수십 가지 프로토콜, 수천 개에 달할 수 있는 물리적 및 논리적 디바이스 구성, 관리해야 할 수많은 인프라 벤더 등이 복잡하게 얽혀 있습니다. 이것이 다가 아닙니다. 여기에 운영자들을 압도하는 데이터 홍수와 현재 시중의 트러블슈팅 도구들이 제 역할을 다하지 못하는 현실까지 더해지면, 데이터센터 네트워크 팀은 쉽게 과부하에 시달리게 됩니다. 결국 데이터는 넘쳐 나는데, 인사이트는 부족해집니다.
바로 이런 상황에서 똑똑한 AI와 머신러닝 알고리즘이 빛을 발합니다. 사람이 일일이 걸러내기엔 너무 방대한 데이터지만, 사실 대부분 꽤 잘 구조화되어 있습니다.
결국 핵심은 기술이 아니라 ‘무엇이 필요한가’입니다.
안타깝게도 기술에 대한 논의는 종종 잘못된 출발점에서 시작됩니다. 바로 ‘기술 그 자체’에만 초점을 맞추는 것이죠. 조직 내의 고위 간부들이 이런 말을 하는 것을 들어보신 적이 있을 겁니다. “회사에서 AI를 활용해야만 뒤처지지 않는다.”라는 말이요. 또한 벤더로부터 “데이터센터 네트워크에 AI를 활용해야 한다.”는 말을 들으신 분들도 계실 겁니다. 하지만 이런 생각은 목적지가 없는 출발점일 뿐입니다. 기술에 관해 논의할 때는 바로 목표가 무엇인지, 해결해야 할 문제가 무엇인지부터 파악해야 합니다.
우리의 목표는 항상 명확했습니다. 데이터센터 네트워크를 운영하는 관리자든, 혹은 자신도 모르게 데이터센터에 의존해 애플리케이션을 사용하는 최종 사용자든, 누구에게나 최고의 사용자 경험을 제공하는 것을 목표로 삼습니다. 지난 10년간 주니퍼는 AI를 개발하고 Wi-Fi에 최초로 도입한 데 이어 캠퍼스와 브랜치 도메인에도 적용해 왔습니다. 데이터센터에서는 후발 주자의 이점을 누릴 수 있습니다. 캠퍼스 환경에서 얻은 교훈을 바탕으로 모든 인사이트를 고스란히 적용할 수 있기 때문이죠.
데이터센터 네트워크 운영의 주요 과제
사용자 경험을 최적화하는 것이 목표라면, 데이터센터 실무자들이 직면한 과제는 결국 고객과의 긴밀한 협업을 통해 해결해야 합니다. 이러한 과제들은 세 가지 범주로 나눌 수 있습니다. 바로 제한적인 인사이트, 느린 속도, 미흡한 안정성입니다.
- 인사이트: 일반적인 상황을 떠올려봅시다. 한 기업의 네트워크 담당자가 갑자기 매우 화가 난 임원으로부터 CRM 앱이나 ERP 시스템 같은 핵심 애플리케이션이 다운됐다는 전화를 받습니다. 네트워크가 원인일 수도 있고, 아닐 수도 있습니다. 대부분의 경우 네트워크 팀은 자사 네트워크에서 어떤 애플리케이션이 어떻게 돌아가는지에 대해 제한적인 인사이트만 가지고 있습니다. 하지만 분명히 해둘 점이 있습니다. 데이터센터의 본질적인 목적은 최종 사용자가 필요로 하는 애플리케이션을 호스팅하고 제공하는 데 있습니다. 소비자를 위한 간편한 앱이든, 기업을 위한 미션 크리티컬 애플리케이션이든 말이죠.
- 속도:또 다른 문제는 IT 인프라를 관리하는 과정에서 속도나 민첩성이 부족하다는 점입니다. 갑작스런 수요 폭증으로 용량을 빨리 늘려야 하는 경우처럼 긴급한 비즈니스 요구가 생기면, 회사의 일반적인 변경관리 절차나 유지보수 시간만으로는 대응이 어렵습니다. 프로세스가 너무 느리거나 답답하기 때문입니다.
- 안정성: 마지막으로, 낮은 안정성과 잦은 다운타임은 항상 존재하는 걱정거리입니다. 거의 모든 기업은 단 한 번의 성급한 변경이나 수작업 설정 실수만으로도 전체 네트워크를 다운시킬 위험에 노출돼 있습니다. 이는 회사의 평판과 재정에 막대한 타격을 줄 수 있습니다. 그리고 이런 사고는 실무자의 경력에도 부정적인 영향을 미칠 수 있습니다. 신속하고 강력한 자동 복구 및 롤백 기능이 없다면, 몇 시간에서 며칠 동안 막대한 노력을 기울여야만 서비스를 복원할 수 있습니다. 데이터센터 네트워크 운영자들은 늘 터지는 불끄기에 바빠서, 정작 비즈니스에 도움이 되는 선제적이고 전략적인 IT 프로젝트에는 손도 못 대는 경우가 많습니다.
AI를 만병통치약처럼 맹목적으로 도입하기 전에, 먼저 이 문제들을 제대로 이해하고 자문해야 합니다. “과연 AI가 이 문제 해결에 도움이 될까?” 대답은 당연히 ‘예’입니다.
AI는 반드시 필요하지만, AI만으로는 부족하다
하지만 AI가 모든 NetOps 문제를 해결하지는 못합니다. AI는 필요하지만, AI만으로 모든 것을 해결할 수는 없습니다. 우리에게는 근본적으로 확률론적 성격을 가진 AI, 그리고 인텐트 기반 네트워킹과 같은 결정론적 접근 방식을 함께 활용하는 시스템이 필요합니다.
구성 정확도가 99% 정도면 괜찮을까요? 아니요, 누구나 100%의 정확도를 원할 겁니다. 그렇다면 규칙에 기반한 결정론적 소프트웨어가 필요합니다. 하지만 운영 Day 2, 즉 데이터센터가 예측 불가능한 실제 환경에서 운영되기 시작하면 얘기가 달라집니다. 수많은 증상을 기반으로 문제의 근본 원인을 99%의 정확도로 파악 가능한 시스템이 있다면, 이는 현재 사용 중인 것보다 더 나은 솔루션이라 말할 수 있을 겁니다. 이렇게 방대한 양의 데이터를 분석하여 사람이 쉽게 파악하지 못하는 상관관계를 찾아내는 것이야말로 AI의 힘이라 할 수 있습니다.
AI와 인텐트 기반 네트워킹, 이 두 가지 기술을 결합하면 운영자에게는 비교 불가의 네트워크 운영 경험을, 최종 사용자에게는 최고의 애플리케이션 경험을 제공할 수 있습니다.