데이터센터 네트워킹의 필수 요소, AI: 2부

필자는 HPE Networking 최고 AI 책임자 Bob Friday 씨와 함께 최근 Tech Field Day 팟캐스트에 참여했습니다. 이 팟캐스트 쇼의 첫 주제는 ‘데이터센터 네트워킹의 필수 요소, AI’였는데, 그 의견에 전적으로 동의합니다. 이 두 편으로 구성된 블로그 시리즈의 1편에서 우리는, AI를 사용할지 여부와 그 방식을 논의할 때는 반드시 각자의 목표와 해결해야 할 문제를 기준으로 삼아야 한다는 점을 강조했습니다. 데이터센터 네트워킹 운영자들이 직면한 과제들을 살펴본 결과, AI가 실제로 도움이 될 수 있다는 점이 분명해졌습니다. 그리고 그 방법은 바로 다음과 같습니다.

AI 네이티브 혁신으로 확장되는 데이터센터 리더십

AI가 빠르게 개선되고 있으며, AI가 Day 0 설계부터 Day 1 배포, Day 2 지속적인 운영에 이르기까지 전체 데이터센터 수명 주기에서 점점 더 큰 부분이 되어 가고 있다는 점에는 의심할 여지가 없습니다. 주니퍼는 최근 데이터센터 네트워킹을 위한 새로운 AIOps 기능을 여러 가지 발표했습니다.

예측 유지보수(Predictive Maintenance)는 네트워크 운영자가 미래에 발생할 문제를 미리 파악하고, 실제 문제가 일어나기 전에 이를 해결할 수 있도록 해줍니다.
- 시스템 상태. 프로세서와 메모리 사용량, 온도 등의 데이터를 분석해 스위치가 언제 장애를 일으킬지 미리 예측할 수 있습니다.
- 용량. 링크 사용량, 트래픽 증가 등에 대한 데이터를 분석해 패브릭 확장이 필요한 시점을 미리 예측할 수 있습니다.
- 옵틱. Tx/Rx 처리량, 전력, 전압 등을 바탕으로 옵티컬 트랜시버 고장 시점을 예측합니다. 광 모듈에서 발생하는 그레이 장애(부분 장애)는 항상 문제이며, 완전한 장애보다 더 심각할 수 있습니다. 왜냐하면 감지하기가 훨씬 더 어렵기 때문입니다.

이런 기능들 중 많은 경우, 처음 나올 당시에는 AI를 상황에 따라 유연하고 능동적인 방식으로 사용하지는 않았습니다. 초기에는 보통 시스템이 고정된 임계치를 정해두고, 이를 넘으면 알람을 트리거하는 경우가 많았습니다. 하지만 좋은 포도로 좋은 와인을 빚어내듯, 양질의 데이터로 양질의 AI를 만들 수 있습니다. 데이터를 충분히 축적하려면 시간이 걸립니다. 이 점이 바로 주니퍼가 경쟁사들보다 우위를 점하는 이유입니다. Mist® 플랫폼으로 이미 10년 동안 AIOps를 해왔기 때문입니다. 좋은 AI에는 데이터를 축적하고 학습과 훈련을 반복하여 적응할 시간이 필요하며, 이 모든 것의 목표는 사용자 경험 최적화입니다. 데이터센터에서 AIOps는 아직 초기 단계에 있지만, 매우 빠르게 발전하고 있습니다.

SLE(Service Level Expectations)는 네트워크의 다양한 지표를 종합하고 전반적인 상태 점수를 계산하며, 일정 기간 동안 그 점수에 영향을 미친 문제들을 분석하는 작업을 필연적으로 수반합니다. 이를 통해 고객은 자사 네트워크가 애플리케이션 소유자와 최종 사용자의 요구를 제대로 충족하고 있는지 한눈에 파악할 수 있습니다.

문서 검색 기능은 대부분의 인프라 벤더들이 가상 네트워크 어시스턴트를 도입할 때 가장 먼저 시작하는 전형적인 사례입니다. 제품 문서에 LLM을 연결해 검색 기능을 더 똑똑하게 만드는 것입니다. 하지만 그다음 단계는 한층 더 고도화된 활용입니다. LLM을 실제 엔터프라이즈 소프트웨어 애플리케이션, 즉 우리처럼 네트워크 관리 및 자동화 도구와 연결하고, 이들이 접근할 수 있는 방대한 데이터를 활용하는 것입니다. 네트워크 운영자들은 이제 완전히 새롭고 더 나은 방식으로 도구와 상호작용할 수 있습니다. 모든 것이 자연어를 통해 가능하죠. Marvis™ AI 어시스턴트는 그야말로 최고의 조력자입니다.

애플리케이션 어슈어런스(Application Assurance)는 필수적입니다. 데이터센터의 핵심 목적이 바로 애플리케이션을 호스팅하고 이를 최종 사용자에게 전달하는 것이기 때문입니다. 주니퍼 솔루션은 AIOps와 인텐트 기반 네트워킹(Intent-Based Networking)을 결합합니다. 이상 징후 탐지 알고리즘은 트래픽 플로우가 정상적이지 않을 때 이를 감지합니다. 이러한 인텔리전스는 특정 시점에 어떤 애플리케이션이 어떤 포트를 통해 흐르는지에 대한 결정론적 이해와 결합됩니다. 즉, 네트워크 성능과 애플리케이션 성능이 긴밀히 연결되는 것입니다.

데이터센터 AIOps의 마지막 범주이자 어쩌면 가장 중요한 것은 바로 ‘실험(Experimentation)’입니다. 대규모 언어 모델(LLM)은 놀라움을 넘어 거의 마법과도 같습니다. LLM을 만든 사람들조차도, 그것이 어떻게 작동하는지 직관적으로 다 아는 것은 아니라고 인정합니다.

엔터프라이즈 비즈니스 혁신이라는 큰 그림에서 보면, 모든 회사가 기본이 되는 LLM을 확보하고 이를 자체 상황에 맞게 튜닝해야 합니다. 기업들은 자신들이 보유한 방대한 데이터를 벡터화하여 RAG(Retrieval Augmented Generation) 방식으로 AI 모델에 공급해야 합니다. 소프트웨어를 판매하는 모든 기업은 소프트웨어를 LLM 및 다른 AI 모델과 연결하는 실험을 수행해야 합니다. 네트워킹 업계 관점에서 보면, MCP(Model Context Protocol)가 에이전틱 AI를 구현하는 핵심 촉매 역할을 할 것으로 기대합니다. 아직 엔터프라이즈 소프트웨어용 MCP 서버를 구축하지 않았다면, 지금 바로 시작하십시오!

앞으로 몇 년간 이루어질 방대한 AI 혁신은 고객 주도로 이루어질 것입니다. 벤더가 고객의 손에 개방형 시스템을 쥐어주면 놀랍고도 예상치 못한 결과를 얻을 수 있습니다. 기업 역사 전반에 걸쳐 수많은 산업이 공급자가 아닌 최종 사용자의 주도로 이루어지는 혁명적인 혁신을 통해 변화해 왔습니다.

지금 우리가 살아가는 흥미로운 시대

대부분의 사람들은 넘쳐나는 AI 관련 정보와 그 발전 속도에 압도되어 있습니다. 최신 정보를 계속 확인하되, 부담을 느끼고 싶지는 않습니다. 하지만 AI의 접근성이 그 어느 때보다 높기도 합니다. Hugging Face에서 제공하는 수많은 AI 모델은 누구나 무료로 다운로드할 수 있고, 초심자도 간단하게 MCP 서버를 구축해서 수많은 데이터 소스에 연결할 수 있습니다. 막히는 부분이 있으면 Claude에 도움을 청하기만 하면 됩니다. LLM은 이제 정말 사람하고 대화하는 것 같은 느낌이 들기 시작했습니다. 네트워크 엔지니어에게는 정말 흥미진진한 시대입니다.

About me

데이터센터 네트워킹의 필수 요소, AI: 2부