17일 전
혼합형 RAG: 의미 기반 검색과 하이브리드 쿼리 기반 리트리버를 통한 RAG(Retriever-Augmented Generation) 정확도 향상
Kunal Sawarkar, Abhilasha Mangal, Shivam Raj Solanki

초록
검색 증강 생성(Retrieval-Augmented Generation, RAG)은 대규모 언어 모델(Large Language Model, LLM)에 비공개 문서 지식 기반을 통합하여 생성형 질의응답(Q&A) 시스템을 구축하는 일반적인 접근법이다. 그러나 문서 코퍼스가 확장될수록 RAG의 정확도는 점점 더 큰 도전 과제가 되며, 이는 검색기(Retriever)가 코퍼스에서 가장 관련성이 높은 문서를 추출하여 LLM에 맥락을 제공함으로써 전체 RAG 정확도에 결정적인 영향을 미치기 때문이다. 본 논문에서는 밀도 벡터 인덱스(Dense Vector indexes)와 스파스 인코더 인덱스(Sparse Encoder indexes)와 같은 의미론적 검색 기법을 하이브리드 질의 전략과 결합하여 활용하는 '블렌디드 RAG(Blended RAG)' 방법을 제안한다. 본 연구는 NQ 및 TREC-COVID와 같은 정보 검색(IR) 데이터셋에서 더 우수한 검색 성능을 달성하며, 새로운 벤치마크를 설정하였다. 또한, 이러한 '블렌디드 검색기(Blended Retriever)'를 RAG 시스템에 확장하여 SQUAD와 같은 생성형 Q&A 데이터셋에서 기존의 파인튜닝(fine-tuning) 성능을 초월하는 탁월한 결과를 입증하였다.