이 시리즈의 첫 번째 블로그에서는 기본 LLM(대규모 언어 모델) 개발의 복잡성과 대부분의 기업에서 개발 범위를 벗어나는 방대한 리소스가 필요하다는 점을 살펴봤습니다. 이제 모든 기업이 자체 프라이빗 데이터센터에 이러한 기본 LLM을 활용하기 위해 사용할 수 있는 옵션을 검토해 보겠습니다.
128개의 GPU를 갖춘 소규모 AI 데이터센터도 구축하는 데 수백만 달러의 비용이 들 수 있으므로 비용 절감을 위해서는 효율성에 투자하는 것이 중요합니다. 이러한 투자 접근 방식은 주니퍼가 AI 데이터센터의 ABC: 애플리케이션(Applications), 빌드(Build) vs 구매(Buy) 및 비용(Cost)이라고 부르는 것에 기반합니다. 해당 포스팅에서는 1편에 이어 애플리케이션 요구 사항이 엔터프라이즈 AI 투자를 위한 AI 소비 모델에 어떤 영향을 미치는지 구체적으로 살펴봅니다.
애플리케이션 복잡성
AI 투자를 계획할 때는 먼저 AI 애플리케이션에서 기대하는 목표, 목적, 결과를 이해하는 것이 중요합니다. 고객 경험을 향상시키기 위한 AI 기반 지원 어시스턴트, 문서 분석기 또는 기술 문서 어시스턴트와 같이 보다 일반적인 사용 사례인가요? 아니면 산업별 또는 조직별로 보다 맞춤화되고 차별화된 AI 애플리케이션이 필요한가요? 커스터마이징 수준이 높아지면 이미 복잡한 개발 프로세스에 복잡성이 더해져 기본 LLM 또는 애플리케이션의 소비 모델에 영향을 미칩니다.
McKinsey Consulting은 AI 애플리케이션 구축을 위한 세 가지 접근 방식을 메이커(Maker), 테이커(Taker), 셰이퍼(Shaper)로 구분합니다.
메이커(Maker)는 연못의 큰 물고기입니다
메이커는 인터넷 데이터로 학습된 자체 기초 LLM을 개발할 수 있는 재정적 수단과 전문성을 갖춘 전 세계에서 몇 안 되는 기업입니다. Google(Gemma, Gemini), Meta(Llama), OpenAI(GPT), Anthropic(Claude), Mistral(Large, Nemo), Amazon(Titan) 등의 기업이 이에 해당합니다. LLM 개발이 핵심 역량이 아닌 대부분의 기업은 테이커 또는 셰이퍼의 길을 걷게 됩니다.
테이커(Taker)는 기존 AI 애플리케이션을 즉시 활용합니다
일반 고객 챗봇과 같이 덜 복잡한 서비스를 구축하거나 자연어 처리 (NLP)를 기존 데이터베이스에 연결하는 기업에서는 기성 LLM을 사용자 지정할 필요가 없습니다. 기업은 라이선스 또는 오픈 소스 여부에 관계없이 사전 학습된 LLM을 기반으로 하는 기존 AI 애플리케이션을 ‘가져와서’ 추론을 위해 해당 모델을 구축할 수 있습니다.
오늘날 이러한 애플리케이션은 대부분의 기업에서 필수 요소로 자리 잡았습니다. 따라서 경쟁 차별화는 거의 없을 수 있지만, 애플리케이션이 원하는 결과를 달성하는 경우 복잡성이 감소하여 구축이 간소화되고 불필요한 지출이 제거됩니다. AI 라이브러리 저장소인 Hugging Face에서 기업은 40만 개 이상의 사전 학습된 LLM, 15만 개의 AI 애플리케이션, 10만 개의 데이터세트에 액세스할 수 있으므로 빠르고 효율적으로 AI를 구축할 수 있는 다양한 옵션을 이용할 수 있습니다.
셰이퍼(Shaper)는 LLM을 자신의 것으로 만듭니다
경쟁 차별화를 강화하거나 맞춤형 워크플로우 애플리케이션이 필요한 기업의 경우, 기성 LLM이나 애플리케이션으로는 충분하지 않을 수 있습니다. 셰이퍼는 사전 학습된 LLM을 가져와 자체 독점 데이터세트를 사용하고 모델을 미세 조정하여 ‘모양’을 만듭니다. 그 결과 모든 프롬프트에 대해 매우 구체적이고 정확한 응답을 제공하는 LLM이 탄생했습니다. 이 모델의 이점을 누릴 수 있는 대표적인 응용 분야는 다음과 같습니다.
- 특정 업무 기능을 수행하도록 LLM을 개선하여 작업을 더 쉽게 또는 덜 일상적으로 만드는 워크플로우 자동화
- 내부 정책 문서, 규제 규칙 또는 법률 개정안을 비교하여 특별한 고려가 필요한 차이점을 식별하는 AI 지원
- 코드 개발 또는 문서 검색을 간소화하기 위해 특정 운영 체제, CLI, 문서에 대해 학습한 Copilot
RAG 추론 활용
이 블로그 시리즈의 1편 에서 다룬 것처럼 추론 시스템은 학습된 AI 애플리케이션을 최종 사용자와 디바이스에 제공합니다. 모델의 크기에 따라 추론은 단일 GPU 또는 서버에 구축하거나 애플리케이션을 여러 서버에 분산하여 규모와 성능을 향상시키는 멀티 노드 배포로 구축할 수 있습니다.
RAG(Retrieval Augmented Generation)라는 비교적 새로운 혁신은 기업에게 AI 모델 개발 및/또는 구축을 맞춤화할 수 있는 흥미로운 기술을 제공합니다. RAG는 외부 데이터 소스에서 얻은 보충 데이터를 제공하여 사전 학습된 LLM을 보강합니다. RAG를 사용하여 사용자 쿼리에서 벡터 임베딩을 얻습니다. 해당 벡터 임베딩과 가장 가까운 일치 항목은 외부 데이터 소스의 데이터를 쿼리하는 데 사용됩니다. 일단 획득한 텍스트 또는 데이터 중 가장 관련성이 높은 부분은 원본 프롬프트와 함께 추론을 위해 LLM에 제공됩니다. 원래 질문과 관련된 로컬 소스 데이터를 제공하면 LLM은 자체 이해와 함께 해당 추가 데이터를 활용하여 답변을 제공할 수 있습니다. LLM 재학습 없이도 RAG는 고객 또는 디바이스 쿼리에 대해 구체적이고 정확한 응답을 제공합니다.
RAG는 테이커와 셰이퍼 모델 사이에 적절히 자리 잡고 있어 기업이 미세 조정 없이 기성 LLM을 사용할 수 있는 수단을 제공합니다. 그러나 이제 원래의 프롬프트 쿼리와 함께 액세스해야 하는 추가 데이터 소스(종종 벡터 데이터베이스)가 있기 때문에 프론트엔드, 외부 데이터 소스, LLM 간의 네트워크 연결은 엔드투엔드 지연 시간이 매우 짧은 고성능이어야 합니다.
LLM 소비 모델이 정의되면 기업은 학습 및 추론 모델을 위한 구축 모델을 선택해야 합니다. 이 시리즈의 다음 3편에서는 ‘빌드 vs 구매’ 옵션과 각각의 관련 비용 고려 사항을 검토해 보겠습니다.