AI 메모리 위기: 인퍼런스 시대를 위한 저장소 혁신의 핵심
인공지능의 숨은 한계, 메모리 문제에 직면한 업계 AI의 발전이 가속화되면서 컴퓨팅 비용 문제에 대한 우려가 커지고 있지만, 핵심은 단순한 계산력이 아니라 ‘메모리’에 있다. WEKA의 라이란 즈비벨 CEO는 최근 테크 매체 더 인포메이션과의 인터뷰에서 AI의 ‘메모리 벽’이 지금보다 더 심각한 문제로 부상할 것이라고 경고했다. 현재 가장 강력한 GPU인 NVIDIA Blackwell Ultra도 모델 추론 과정에서 발생하는 메모리 부족에 한계를 드러내고 있다. 특히 메타의 라마와 같은 대규모 언어 모델은 한 번의 사용만으로도 약 500GB의 데이터를 처리해야 하며, 10만 토큰의 컨텍스트 창은 이미 50GB의 메모리를 요구한다. 이로 인해 여러 사용자가 동시에 서비스를 이용할 수 없고, 결과적으로 사용자는 지연과 제한을 겪게 된다. 현재 대부분의 GPU는 훈련용으로 설계되어 추론 시 메모리가 부족해 효율이 떨어진다. 즈비벨은 “GPU의 힘은 낭비되고 있으며, 사용자에게는 나쁜 서비스가 제공된다”고 지적했다. 향후 ‘에이전트 기반 AI’가 확산되면 메모리 수요는 더욱 급증할 전망이다. 이에 따라 효율적인 메모리 관리가 필수적이다. WEKA는 키-밸류 캐싱, 분리된 프리필 처리 등 최적화 기술을 통해 추론 속도를 반으로 줄이고 동시 처리 가능 수를 4~5배로 늘리는 사례를 확인했다. 특히 인프라 운영 전략도 바뀌고 있다. 최신 GPU는 훈련용으로, 오래된 GPU는 추론용으로 재활용할 수 있다. 훈련용으로 강력한 계산이 필요한 ‘프리필’은 최신 GPU에서, ‘디코딩’은 이전 세대 GPU로 옮겨 처리하는 방식이다. 결국 AI의 미래는 성능이 아니라 경제성에 달려 있다. 즈비벨은 “훈련은 성과를 따지지만, 추론은 경제성을 반드시 이겨내야 한다”고 강조하며, 메모리 효율화는 AI의 지속 가능성을 좌우할 핵심 과제임을 시사했다.