NVIDIA, 작은 언어 모델이 미래의 AI 주체라고 주장
NVIDIA는 대형 언어 모델(LLM) 대신 소형 언어 모델(SLM)이 에이전틱 AI의 미래라고 주장합니다. 이 주장을 바탕으로 NVIDIA는 모든 AI 에이전트 작업에 단일 대형 언어 모델을 사용하는 것보다 소형 언어 모델을 우선적으로 사용하는 아키텍처를 제안합니다. 이 전환의 이유는 비용, 지연 시간, 운영 오버헤드, 그리고 LLM의 호스팅 요구사항과 상업적 약속 등입니다. 이러한 요인들은 AI 에이전트 산업에 큰 영향을 미칠 수 있는 것으로 밝혀졌습니다. NVIDIA는 사용 데이터를 분석하여 이를 사용 가능한 도구에 따라 클러스터링하는 '데이터 플라이휠' 접근 방식을 제안합니다. SLM은 많은 호출에서 충분한 성능을 발휘하며, 특히 경제성 측면에서 매우 유리하다고 강조합니다. 이를 통해 각 하위 작업에 맞춰 세부 조정된 소형 언어 모델을 사용할 수 있습니다. 현재 AI 에이전트 응용 프로그램은 LLM의 요구사항에 최적화되어 있는데, 이는 마치 꼬리가 꼬리를 흔들 듯한 상황이라고 비판합니다. NVIDIA는 사용 사례와 실제 사용 패턴을 기반으로 모델을 선택하고 지속적으로 개선해야 한다고 주장합니다. 대형 언어 모델들은 최신 AI 에이전트의 핵심 구성 요소로, 전략적 결정, 작업 흐름 제어, 복잡한 작업 분해, 행동 계획 및 문제 해결을 가능케 합니다. 대부분의 AI 에이전트는 중앙 집중식 클라우드 인프라스트럭처에 배포된 LLM API 엔드포인트와 통신하여 요청을 수행합니다. 그러나 LLM API 엔드포인트는 다양한 요청을 한 개의 일반적인 LLM으로 처리하도록 설계되어 있어, 이 운영 모델은 산업 내에 깊게 뿌리내려 있습니다. NVIDIA는 LLM이 AI 에이전트 설계에 지배적으로 활용되는 것이 과도하고 대부분의 에이전트 사용 사례의 기능적 요구와 맞지 않는다고 주장합니다. SLM은 다음과 같은 장점들을 제공합니다: 낮은 지연 시간, 줄어든 메모리와 컴퓨팅 요구, 그리고 크게 낮은 운영 비용 등입니다. 이 모든 장점은 제약된 도메인에서 적절한 작업 성능을 유지하면서도 가능합니다. AI 에이전트 시스템은 일반적으로 복잡한 목표를 모듈식 하위 작업으로 분해하며, 각 하위 작업은 전문적 또는 세부 조정된 SLM으로 신뢰성 있게 처리될 수 있습니다. 현대적인 훈련, 프롬프팅, 그리고 에이전트 강화 기술 덕분에, 파라미터 수보다 능력이 더 중요한 제약 요인이 되고 있습니다. 따라서 NVIDIA는 SLM을 기본으로 사용하고, 필요할 때만 LLM을 선택적으로 호출해야 한다고 제안합니다. 산업 전문가들은 NVIDIA의 이 제안이 AI 에이전트 산업에 긍정적인 변화를 가져올 수 있다고 평가하고 있습니다. 이 접근 방식은 모델의 효율성을 높이고 비용을 절감할 수 있으며, 실제로 AI 시스템의 성능을 더욱 개선할 가능성이 크다고 보고 있습니다. NVIDIA는 이러한 연구를 통해 AI 시장에 더 많은 체계성을 가져오려고 노력하고 있으며, 이는 업계 전반에 걸쳐 큰 관심을 받고 있습니다. NVIDIA는 그래픽 처리 장치(GPU) 제조업체로 잘 알려져 있으며, 딥 러닝과 AI 기술 분야에서 선두주자로 자리매김하고 있습니다. 이들의 연구 결과는 AI 에이전트 설계와 운영 방식에 대한 새로운 시각을 제시하며, 앞으로의 AI 발전에 중요한 역할을 할 것으로 기대됩니다.