17일 전
RankRAG: LLM에서 컨텍스트 순위 매기기와 검색 증강 생성 통합하기
Yue Yu, Wei Ping, Zihan Liu, Boxin Wang, Jiaxuan You, Chao Zhang, Mohammad Shoeybi, Bryan Catanzaro

초록
대규모 언어 모델(Large Language Models, LLMs)은 일반적으로 검색 증강 생성(Retrieval-Augmented Generation, RAG)에서 검색기(retriever)로부터 제공받은 상위-k 컨텍스트를 활용한다. 본 연구에서는 RAG에서 컨텍스트 순위 매기기와 답변 생성이라는 이중 목적을 동시에 수행할 수 있도록 단일 LLM을 지시어 미세조정(instruction-tuning)하는 새로운 프레임워크인 RankRAG을 제안한다. 특히, 학습 데이터에 소량의 순위 매기기 데이터를 추가함으로써 지시어 미세조정된 LLM이 놀라운 성능을 발휘하며, 대량의 순위 매기기 데이터로 독립적으로 미세조정된 동일한 LLM을 포함한 기존 전문 순위 매기기 모델들을 모두 상회한다. 답변 생성 측면에서, 본 모델은 GPT-4-0613, GPT-4-turbo-2024-0409, 그리고 RAG 벤치마크에서 최상의 성능을 보이는 오픈소스 모델인 ChatQA-1.5를 포함한 여러 강력한 베이스라인과 비교하였다. 구체적으로, Llama3-RankRAG은 아홉 가지 지식 집약적 벤치마크에서 Llama3-ChatQA-1.5 및 GPT-4 모델을 크게 능가한다. 또한, 생물의학 분야의 다섯 가지 RAG 벤치마크에서 생물의학 데이터에 대한 지시어 미세조정 없이도 GPT-4와 비슷한 성능을 보이며, 새로운 도메인으로의 일반화 능력이 뛰어나다는 점을 입증한다.