12일 전

ReasonRank: 강력한 추론 능력을 갖춘 파스티지 순위 매기기 강화

Wenhan Liu, Xinyu Ma, Weiwei Sun, Yutao Zhu, Yuchen Li, Dawei Yin, Zhicheng Dou
ReasonRank: 강력한 추론 능력을 갖춘 파스티지 순위 매기기 강화
초록

대규모 언어 모델(LLM) 기반의 리스트와치(listwise) 순위 매기기는 여러 문장 순위 매기기 작업에서 우수한 성능을 보여왔다. 대규모 추론 모델의 발전에 따라, 테스트 시점에서 단계별 추론을 수행하는 것이 리스트와치 순위 매기기 성능을 향상시키는 데 도움이 된다는 점이 많은 연구를 통해 입증되었다. 그러나 추론 중심의 학습 데이터가 희소한 상황에서 기존의 재순위 매기기 모델은 복잡한 순위 매기기 시나리오에서 성능이 저조하며, 추론 중심의 재순위 매기기 모델의 순위 매기기 능력은 여전히 크게 부족한 실정이다. 본 논문에서는 먼저 추론 중심의 학습 데이터를 자동으로 생성하는 프레임워크를 제안한다. 이 프레임워크는 다양한 도메인에서 학습용 쿼리와 문장을 수집하고, DeepSeek-R1을 활용하여 고품질의 학습 레이블을 생성한다. 또한 데이터 품질을 보장하기 위해 자기 일관성(self-consistency) 기반의 데이터 필터링 메커니즘을 설계하였다. 리스트와치 재순위 매기기 모델에 강력한 추론 능력을 부여하기 위해, 추론 패턴 학습을 위한 쿨스타트(Cold-start) 지도형 미세조정(SFT) 단계와 순위 매기기 능력 향상을 위한 강화학습(RL) 단계를 포함하는 이단계 후학습(POST-TRAINING) 방법을 제안한다. RL 단계에서는 리스트와치 순위 매기기의 특성을 고려하여, 순위 지표 기반의 보상보다 더 효과적인 다중 시점(multi-view) 순위 보상 구조를 설계하였다. 광범위한 실험을 통해 제안하는 추론 중심 재순위 매기기 모델 ReasonRank가 기존 베이스라인 모델을 상당히 능가함을 입증하였으며, 포인트와치 재순위 매기기 모델 Rank1에 비해 훨씬 낮은 지연(latency)을 달성하였다. 추가 실험을 통해 ReasonRank는 BRIGHT 리더보드(BRIGHT leaderboard)\footnote{https://brightbenchmark.github.io/}에서 최신 기술(SOTA) 성능을 기록하며 40.6의 점수를 달성하였다. 본 연구의 코드는 https://github.com/8421BCD/ReasonRank 에 공개되어 있다.