초록

긴 컨텍스트 LLM 추론에서 주의(attention)는 지연(latency)의 주요 원인으로, 추론 모델과 RAG(Retrieval-Augmented Generation)에서 점점 더 인기 있는 워크로드가 되고 있다. 우리는 기존 학습 없이도 사용할 수 있는 희소 주의(sparse attention) 기법인 Kascade를 제안한다. 이 기법은 다음과 같은 기존의 관찰 결과를 활용한다: 1) 소프트맥스 후 주의 값은 본질적으로 희소하며, 2) 인접한 레이어 간에 높은 가중치를 가진 키(key)의 정체성은 안정적이다. Kascade는 소규모의 앵커 레이어(anchoring layers)에서 정확한 Top-k 인덱스를 계산한 후, 이 인덱스를 중간 레이어의 재사용(reuse) 레이어에서 재사용한다. 앵커 레이어는 개발 세트를 기반으로 동적 프로그래밍(dynamic programming) 기반의 목적 함수를 통해 알고리즘적으로 선택되며, 이는 다양한 모델 간 간편한 배포를 가능하게 한다. 본 기법은 편성(prefill) 및 디코딩(decode) 주의 모두에서 효율적인 구현 제약(예: 타일 수준 연산)을 통합한다. Kascade의 Top-k 선택과 재사용은 헤드(head)를 인지하는 방식으로 설계되었으며, 실험을 통해 이 절차가 높은 정확도를 달성하는 데 핵심적임을 입증했다. H100 GPU 기반에서 Kascade는 FlashAttention-3 벤치마크 대비 디코딩 주의에서 최대 4.1배, 편성 주의에서 최대 2.2배의 속도 향상을 달성하면서도 LongBench 및 AIME-24와 같은 긴 컨텍스트 벤치마크에서 밀집 주의(dense attention)의 정확도에 매우 근접한 성능을 보였다.

소스 PDF