Command Palette

Search for a command to run...

2달 전

REFRAG: RAG 기반 디코딩의 재고찰

Xiaoqiang Lin Aritra Ghosh Bryan Kian Hsiang Low Anshumali Shrivastava Vijai Mohan

REFRAG: RAG 기반 디코딩의 재고찰

초록

대규모 언어 모델(Large Language Models, LLMs)은 검색 증강 생성(Retrieval-Augmented Generation, RAG)과 같은 다단계 및 에이전트 기반 응용에서 방대한 외부 지식을 활용하여 응답을 향상시키는 데 뛰어난 능력을 보여왔다. 그러나 긴 컨텍스트 입력을 처리할 경우 시스템 지연이 크게 증가하고, 키-밸류 캐시를 위한 막대한 메모리가 요구되며, 이로 인해 처리량이 감소하고 지식 강화와 시스템 효율성 사이에 본질적인 트레이드오프가 발생한다. LLM의 긴 컨텍스트 입력에 대한 지연 시간을 최소화하는 것은 주요 목표이지만, RAG의 경우 특별한 고려가 필요하다고 본다. RAG에서는 LLM의 대부분 컨텍스트가 검색된 문단들이 연결된 형태로 구성되며, 이 중 질문과 직접 관련된 부분은 극히 일부에 불과하다. 이러한 문단들은 재순위 지정 과정에서 다양성 또는 중복 제거를 거치면서 높은 의미적 유사성을 가지지 못하는 경우가 많아, 일반적인 LLM 생성 작업과는 다른 블록 대각형( block-diagonal) 구조의 어텐션 패턴을 형성하게 된다. 본 연구는 이 관찰을 바탕으로, 디코딩 과정에서 RAG 컨텍스트에 대한 대부분의 계산이 불필요하며, 성능에 거의 영향을 주지 않으면서 제거할 수 있다고 주장한다. 이를 위해 우리는 효율적인 디코딩 프레임워크인 REFRAG(Recompression, Sensing, and Expansion for RAG)을 제안한다. 이 프레임워크는 컨텍스트를 압축하고, 의미적 중요도를 감지하며, 필요한 부분만 확장함으로써 RAG 응용의 지연을 개선한다. 희소성 구조를 활용함으로써, 복잡도를 유지한 채로 첫 토큰 생성 시간을 30.85배 가속화(기존 최적화 기법 대비 3.75배 개선)하였으며, 퍼플렉서티(PPL)에는 아무런 손실 없이 성능을 유지함을 실험적으로 입증하였다. 또한, 대규모 컨텍스트를 위한 최적화 프레임워크를 통해 REFRAG은 LLM의 컨텍스트 길이를 평균 16배까지 확장할 수 있다. 다양한 긴 컨텍스트 작업, 즉 RAG, 다단계 대화, 장문 문서 요약 등에 걸쳐 다양한 데이터셋을 대상으로 REFRAG의 엄격한 검증을 수행하였으며, 실험 결과는 LLaMA 모델 및 기타 최신 기준 모델들과 비교했을 때, 다양한 컨텍스트 길이에서 정확도 손실 없이 상당한 속도 향상을 제공함을 확인하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
REFRAG: RAG 기반 디코딩의 재고찰 | 연구 논문 | HyperAI초신경