17일 전

RetroMAE v2: 검색 지향 언어 모델의 사전 훈련을 위한 이중 마스킹 오토인코더

Shitao Xiao, Zheng Liu
RetroMAE v2: 검색 지향 언어 모델의 사전 훈련을 위한 이중 마스킹 오토인코더
초록

웹 검색 및 질의응답과 같은 검색 응용을 보다 효과적으로 지원하기 위해, 검색 중심의 언어 모델 개발에 대한 노력이 점점 증가하고 있다. 기존의 대부분의 연구는 [CLS] 토큰의 컨텍스트 임베딩에 대한 의미 표현 능력을 향상시키는 데 집중해 왔다. 그러나 최근 연구에서는 [CLS] 토큰 외의 일반 토큰들 역시 추가적인 정보를 제공할 수 있으며, 이는 보다 우수한 표현 효과를 도출하는 데 기여할 수 있음을 보여주었다. 따라서 현재의 방법을 확장하여, [CLS] 토큰뿐만 아니라 모든 컨텍스트 임베딩이 검색 작업을 위해 공동으로 사전 훈련될 수 있도록 하는 것이 필수적이다.이러한 동기를 바탕으로, 본 연구에서는 새로운 사전 훈련 방법인 '이중 마스킹 오토인코더'(Duplex Masked Auto-encoder, 약칭: DupMAE)를 제안한다. DupMAE는 [CLS] 토큰과 일반 토큰 모두의 컨텍스트 임베딩에 대한 의미 표현 능력을 향상시키는 것을 목표로 한다. 이 모델은 두 가지 복원 작업을 도입한다. 첫 번째는 [CLS] 임베딩을 기반으로 원본 입력 문장을 재구성하는 작업이며, 두 번째는 전체 일반 토큰의 임베딩을 기반으로 입력 문장에 대한 단어 집합 손실(BoW, bag-of-words loss)을 최소화하는 작업이다. 두 가지 복원 손실은 합쳐져 하나의 통합 인코딩 모델을 훈련하는 데 사용된다. 이후 [CLS] 토큰과 일반 토큰의 임베딩은 차원 축소 및 집계를 거쳐 하나의 통합된 의미 표현으로 결합된다. DupMAE는 구조적으로 간단하지만 실험적으로 경쟁력 있는 성능을 보이며, 낮은 복원 비용으로도 모델의 표현 능력과 전이 가능성을 크게 향상시킨다. 특히 MS MARCO 및 BEIR 벤치마크에서 뚜렷한 성능 향상이 확인되었다.

RetroMAE v2: 검색 지향 언어 모델의 사전 훈련을 위한 이중 마스킹 오토인코더 | 최신 연구 논문 | HyperAI초신경