2달 전
PARADE: 문서 재순위 결정을 위한 통로 표현 집계
Canjia Li; Andrew Yates; Sean MacAvaney; Ben He; Yingfei Sun

초록
事전 학습된 트랜스포머 모델, 예를 들어 BERT와 T5는 즉석(ad-hoc) 문장과 문서 순위 매기기에 매우 효과적임을 입증하였습니다. 이러한 모델의 고유한 시퀀스 길이 제한 때문에, 전체 문서 시퀀스를 한 번에 처리하는 대신 문서의 각 문장을 처리해야 합니다. 문장 수준 신호를 집계하기 위한 여러 방법이 제안되었지만, 아직까지 이러한 기술들 간의 광범위한 비교가 이루어지지 않았습니다. 본 연구에서는 문서의 문장에서 관련성 신호를 집계하여 최종 순위 점수로 변환하는 전략을 탐구합니다. 우리는 문장 표현 집계 기법이 이전 연구에서 제안된 방법(예: 최대 문장 점수 사용)보다 크게 개선될 수 있음을 발견하였습니다. 이를 새로운 접근 방식인 PARADE라고 명명하였습니다. 특히, PARADE는 관련성 신호가 문서 전체에 분산되어 있는 정보 요구 범위가 넓은 컬렉션(TREC Robust04 및 GOV2와 같은)에서 결과를 크게 개선할 수 있습니다. 반면, 정보 요구 사항이 종종 단일 문장으로 좁혀지는 컬렉션(TREC DL 및 TREC Genomics와 같은)에서는 복잡도가 낮은 집계 기법이 더 잘 작동할 수 있습니다. 또한 효율성 분석을 수행하고, 트랜스포머 기반 집계를 개선하기 위한 몇 가지 전략을 강조하였습니다.