17일 전

조건부 오토인코더를 통한 효율적인 밀집 검색을 위한 차원 감소

Zhenghao Liu, Han Zhang, Chenyan Xiong, Zhiyuan Liu, Yu Gu, Xiaohua Li
조건부 오토인코더를 통한 효율적인 밀집 검색을 위한 차원 감소
초록

Dense retriever는 사전 훈련된 언어 모델을 사용하여 질의(query)와 문서를 인코딩하고, 임베딩 공간에 매핑한다. 이러한 임베딩은 훈련 신호를 적절히 반영하고 dense retriever의 검색 효과성을 보장하기 위해 고차원이어야 한다. 그러나 고차원 임베딩은 인덱스 저장 용량 증가와 더 높은 검색 지연(latency)을 초래한다. 본 논문에서는 이러한 고차원 임베딩을 압축하여 동일한 임베딩 분포를 유지하면서 순위 특징을 더 잘 복원할 수 있도록 조건부 오토인코더(Conditional Autoencoder, ConAE)를 제안한다. 실험 결과 ConAE는 교사 모델과 비교해 유사한 순위 성능을 달성하면서도 임베딩을 효과적으로 압축함으로써 검색 시스템의 효율성을 높임을 입증하였다. 추가 분석을 통해 ConAE가 단일 선형 레이어만으로도 dense retrieval 임베딩의 중복성을 완화할 수 있음을 확인하였다. 본 연구의 모든 코드는 https://github.com/NEUIR/ConAE 에 공개되어 있다.

조건부 오토인코더를 통한 효율적인 밀집 검색을 위한 차원 감소 | 최신 연구 논문 | HyperAI초신경