2일 전

XQuant: LLM 추론을 위한 KV 캐시 재생성으로 메모리 장벽 극복

Aditya Tomar, Coleman Hooper, Minjae Lee, Haocheng Xi, Rishabh Tiwari, Wonjun Kang, Luca Manolache, Michael W. Mahoney, Kurt Keutzer, Amir Gholami
XQuant: LLM 추론을 위한 KV 캐시 재생성으로 메모리 장벽 극복
초록

비록 대규모 언어 모델(LLM) 추론이 여러 하류 응용 분야에서 핵심적인 작업 부하로 부상했지만, 상당한 메모리 사용량과 대역폭 요구량으로 인해 LLM의 효율적 추론은 여전히 도전 과제이다. 한편, 지난 수십 년간 컴퓨팅 능력은 메모리 용량과 대역폭을 꾸준히 앞서왔으며, 이 경향은 현대 GPU 하드웨어에서도 여전히 두드러지며 LLM 추론의 어려움을 더욱 악화시키고 있다. 이러한 상황에서, 더 많은 계산을 희생하여 메모리 연산을 줄이는 새로운 알고리즘이 등장하고 있다. 이를 바탕으로 본 연구에서는 XQuant를 제안한다. XQuant는 이러한 추세를 활용하여, 기존 최고 수준의 KV 캐시 양자화 기법에 비해 뛰어난 정확도를 유지하면서도, 저비트 양자화를 통해 메모리 사용량을 수십 배까지 줄일 수 있도록 한다. 이는 표준 KV 캐시 방식 대신 계층 입력 활성화값 X를 양자화하고 캐시하는 방식으로 달성된다. 이후 추론 중에 필요할 때마다 키(Key)와 값(Value)을 실시간으로 재생성한다. 이로 인해 KV 캐시 방식 대비 즉시 2배의 메모리 절감 효과를 얻을 수 있다. XQuant를 적용함으로써, FP16 기준 대비 최대 약 7.7배의 메모리 절감을 달성하면서도, 퍼플렉서티(Perplexity) 감소는 0.1 이하에 그친다. 더불어 본 연구는 다양한 계층 간 X 값이 유사하다는 사실을 활용한다. 이러한 관찰을 바탕으로, XQuant-CL을 제안한다. XQuant-CL은 X 임베딩의 계층 간 유사성을 활용하여 극한의 압축을 실현한다. 다양한 모델에 적용했을 때, XQuant-CL은 FP16 기준 대비 최대 10배의 메모리 절감을 달성하며 퍼플렉서티 감소는 0.01에 불과하며, 12.5배의 메모리 절감은 퍼플렉서티 감소 0.1 이내로 유지한다. XQuant는 하드웨어 플랫폼의 급속한 컴퓨팅 능력 증가를 활용하여 메모리 병목 현상을 극복함과 동시에, 기존 최고 수준의 KV 캐시 양자화 기법을 뛰어넘어 다양한 모델에서 거의 FP16 수준의 정확도를 달성한다.

XQuant: LLM 추론을 위한 KV 캐시 재생성으로 메모리 장벽 극복 | 최신 연구 논문 | HyperAI초신경