17일 전

파라미터 하나도 소외시키지 않기: 희석과 모델 크기가 제로샷 검색에 미치는 영향

Guilherme Moraes Rosa, Luiz Bonifacio, Vitor Jeronymo, Hugo Abonizio, Marzieh Fadaee, Roberto Lotufo, Rodrigo Nogueira
파라미터 하나도 소외시키지 않기: 희석과 모델 크기가 제로샷 검색에 미치는 영향
초록

최근 연구에서 소규모로 압축된 언어 모델이 정보 검색 작업 전반에서 수십 배 이상 크고 느린 모델들과 경쟁할 수 있는 강력한 성능을 보이고 있음을 밝혔다. 이러한 결과로 인해 지연 시간(latency) 제약 상황에서 압축 모델과 밀집 모델(Dense models)은 실세계 검색 응용 프로그램에 배포하는 데 있어 표준적인 선택지가 되었다. 본 연구에서는 이러한 관행을 재검토하며, 모델 파라미터 수와 초기 쿼리-문서 상호작용(query-document interaction)이 검색 모델의 일반화 능력에 중요한 영향을 미친다는 점을 제시한다. 실험 결과, 모델 크기를 늘릴 경우 도메인 내 테스트 세트에서는 성능 향상이 미미하지만, 미리 트레이닝되지 않은 새로운 도메인에서는 상당한 성능 향상이 나타남을 확인하였다. 또한, 유사한 크기의 밀집 모델에 비해 재랭킹 모델(Rerankers)이 여러 작업에서 훨씬 우수한 성능을 발휘함을 보였다. 본 연구에서 개발한 가장 큰 재랭킹 모델은 Benchmark-IR(BEIR)의 18개 데이터셋 중 12개에서 최고 성능을 기록하며, 이전 최고 성능보다 평균 3포인트 이상 뛰어넘었다. 마지막으로, 도메인 내 성능이 제로샷(zero-shot) 성능을 잘 예측하지 못함을 확인하였다. 코드는 https://github.com/guilhermemr04/scaling-zero-shot-retrieval.git 에서 공개되어 있다.

파라미터 하나도 소외시키지 않기: 희석과 모델 크기가 제로샷 검색에 미치는 영향 | 최신 연구 논문 | HyperAI초신경