Command Palette
Search for a command to run...

초록
대규모 언어 모델은 RAG 시스템의 전반적인 성능을 향상시키기 위한 재정렬(reranker)로서 강력한 잠재력을 보여주고 있다. 그러나 기존의 재정렬 패러다임은 핵심적인 이론적·실용적 딜레마에 제약을 받고 있다. Pointwise 방식은 간단하고 높은 유연성을 지니고 있으나, 문서들을 독립적으로 평가하기 때문에 문서 간 상대적 중요성을 간과하는 '순위 시야 제한( Ranking Myopia Trap)'에 취약하다. 반면 Listwise 방식은 전반적인 순위 맥락을 인지할 수는 있으나, 본질적인 '리스트 경직성(List Rigidity)'을 지니고 있어 대규모 후보 집합을 다룰 때 심각한 확장성과 유연성 문제를 겪는다. 이러한 과제를 해결하기 위해 우리는 새로운 재정렬 패러다임인 Groupwise를 제안한다. 이 방식은 쿼리와 일정 그룹의 후보 문서를 모델에 함께 입력하여, 그룹 내에서의 상호 비교를 수행함으로써 각 문서에 개별적인 관련성 점수를 부여한다. 이 설계는 Pointwise 방식의 유연성을 유지하면서도 Listwise 방식의 비교 능력을 가능하게 한다. 또한 모델 학습을 위해 GRPO(Generalized Reward Policy Optimization)를 도입하고, 순위 지표와 그룹 간 점수 분포를 일치시키는 분포 기반 보상(distributional reward)을 통합한 이질적 보상 함수(heterogeneous reward function)를 적용한다. 고품질 레이블 데이터의 부족으로 인한 한계를 극복하기 위해, 고품질의 검색 및 순위 데이터를 합성하는 혁신적인 파이프라인을 제안한다. 이로 생성된 데이터는 재정렬 모델 학습뿐 아니라 검색기(retriever)의 학습에도 활용될 수 있다. 광범위한 실험을 통해 본 연구의 효과성을 검증하였다. 두 가지 추론 중심의 검색 벤치마크인 BRIGHT와 R2MED에서 본 방법이 우수한 성능을 보였다.