LLM의 요구 사항 이해: 검색 기반 생성을 위한 이중 선호도 맞춤

검색 강화 생성(Retrieval-Augmented Generation, RAG)는 대형 언어 모델(Large Language Models, LLMs)의 환각 문제를 완화하는 데 효과를 보여주었습니다. 그러나 다양한 LLMs의 지식 선호도를 검색기와 일치시키는 어려움은 신뢰할 수 있는 RAG 시스템 개발에 불가피한 도전을 제시합니다. 이 문제를 해결하기 위해, 우리는 다양한 지식 선호도를 RAG 시스템 내에서 일치시키도록 설계된 보편적 프레임워크인 DPA-RAG를 제안합니다.구체적으로, 우리는 선호 지식 구축 파이프라인을 처음으로 소개하고, 선호 데이터 부족을 완화하기 위해 다섯 가지 새로운 쿼리 증강 전략을 통합합니다. 선호 데이터를 기반으로 DPA-RAG는 외부 및 내부 선호도 일치를 모두 달성합니다: 1) 쌍별(pair-wise), 점수별(point-wise), 그리고 대조적(contrastive) 선호도 일치 능력을 재순위 결정기(reranker)에 공동으로 통합하여 RAG 구성 요소 간의 외부 선호도 일치를 실현합니다. 2) 일반적인 감독 학습 미세 조정(Supervised Fine-tuning, SFT) 단계 전에 사전 일치(pre-aligned) 단계를 추가하여 LLMs가 자신의 추론 선호도와 일치하는 지식을 암묵적으로 포착하도록 하며, 이를 통해 LLMs의 내부 일치를 달성합니다.네 가지 지식 중심 QA 데이터셋에 대한 실험 결과는 DPA-RAG가 모든 베이스라인을 능가하며, 블랙박스와 오픈 소스 LLM 리더들을 원활하게 통합함을 보여줍니다. 또한 질적 분석과 논의는 신뢰할 수 있는 RAG 시스템 개발을 위한 경험적 가이드라인을 제공합니다. 우리의 코드는 https://github.com/dongguanting/DPA-RAG에서 공개적으로 이용 가능합니다.