17일 전
ColBERTv2: 경량 후속 상호작용을 통한 효과적이고 효율적인 검색
Keshav Santhanam, Omar Khattab, Jon Saad-Falcon, Christopher Potts, Matei Zaharia

초록
신경망 기반 정보 검색(Neural Information Retrieval, IR)은 검색 및 기타 지식 집약적인 언어 작업에서 큰 발전을 이뤘다. 많은 신경망 IR 방법들이 질의(query)와 문서를 단일 벡터 표현으로 인코딩하지만, 라이트 인터랙션(late interaction) 모델은 각 토큰 단위의 다중 벡터 표현을 생성하고, 관련성 모델링을 확장 가능한 토큰 단위 계산으로 분해한다. 이러한 분해는 라이트 인터랙션 모델의 효과성을 입증하였으나, 모델의 공간 복잡도를 한 차수 정도 증가시킨다. 본 연구에서는 공격적인 잔차 압축 기법과 노이즈 제거된 지도 학습 전략을 결합한 ColBERTv2를 제안한다. 이는 라이트 인터랙션 모델의 성능과 공간 효율성을 동시에 개선한다. 다양한 벤치마크에서 ColBERTv2를 평가한 결과, 학습 도메인 내외에서 최신 기준 수준의 성능을 달성하면서도, 라이트 인터랙션 모델의 공간 복잡도를 6~10배까지 감소시켰다.