17일 전

RetroMAE: 마스크된 오토인코더를 통한 검색 지향형 언어 모델의 사전 훈련

Shitao Xiao, Zheng Liu, Yingxia Shao, Zhao Cao
RetroMAE: 마스크된 오토인코더를 통한 검색 지향형 언어 모델의 사전 훈련
초록

다수의 중요한 자연어처리(NLP) 작업에서 사전 훈련(pre-training) 기술이 큰 진전을 이뤘음에도 불구하고, 밀집 검색(dense retrieval)을 위한 효과적인 사전 훈련 전략은 여전히 탐구할 여지가 있다. 본 논문에서는 마스킹 자동인코더(Masked Auto-Encoder, MAE) 기반의 새로운 검색 지향 사전 훈련 프레임워크인 RetroMAE를 제안한다. RetroMAE는 세 가지 핵심 설계로 두드러진다. 첫째, 새로운 MAE 워크플로우로, 인코더와 디코더에 서로 다른 마스크를 사용하여 입력 문장을 훼손한다. 인코더의 마스크된 입력을 기반으로 문장 임베딩을 생성한 후, 문장 임베딩과 디코더의 마스크된 입력을 활용하여 마스킹 언어 모델링 기법을 통해 원래 문장을 복원한다. 둘째, 비대칭적인 모델 구조로, 인코더는 전체 규모의 BERT 유사 트랜스포머를, 디코더는 단일 레이어의 트랜스포머를 사용한다. 셋째, 비대칭적인 마스킹 비율을 적용하여, 인코더에는 중간 수준의 마스킹 비율(15~30%)을, 디코더에는 공격적인 마스킹 비율(50~70%)을 적용한다. 제안하는 프레임워크는 구현이 간단하고, 실증적으로도 경쟁력 있는 성능을 보이며, BEIR 및 MS MARCO와 같은 다양한 밀집 검색 벤치마크에서 최신 기술(SOTA) 성능을 크게 향상시킨다. 소스 코드와 사전 훈련 모델은 https://github.com/staoxiao/RetroMAE 에 공개되어, 더 많은 흥미로운 연구를 촉진하기 위해 제공된다.