17일 전

REALM: 검색 증강 언어 모델 사전 훈련

Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, Ming-Wei Chang
REALM: 검색 증강 언어 모델 사전 훈련
초록

언어 모델의 사전 훈련은 질문 응답과 같은 자연어 처리(NLP) 작업에 필수적인 세계 지식의 놀라운 양을 포착함이 입증되었다. 그러나 이러한 지식은 신경망의 파라미터 내에 암묵적으로 저장되어 있어, 더 많은 사실을 다루기 위해 점점 더 큰 모델이 필요하다.지식을 더 모듈화되고 해석 가능한 방식으로 포착하기 위해, 대규모 코퍼스(예: 위키백과)에서 문서를 검색하고 주목할 수 있도록 하는 잠재적 지식 검색기(latent knowledge retriever)를 언어 모델의 사전 훈련에 통합한다. 이 검색기는 사전 훈련, 미세 조정(fine-tuning), 추론 과정 전반에서 사용된다. 본 연구에서는 처음으로 마스크된 언어 모델링(masked language modeling)을 학습 신호로 활용하여, 수백만 개의 문서를 고려하는 검색 단계를 역전파(backpropagating)하는 방식으로 비지도(unsupervised)로 이러한 지식 검색기를 사전 훈련하는 방법을 제시한다.오픈 도메인 질문 응답(Open-domain Question Answering, Open-QA)이라는 도전적인 과제에 대해 미세 조정을 수행함으로써, 검색 증강 언어 모델 사전 훈련(Retrieval-Augmented Language Model pre-training, REALM)의 효과를 입증하였다. 기존의 암묵적 및 명시적 지식 저장 방식을 모두 고려한 최첨단 모델들과 세 가지 인기 있는 Open-QA 벤치마크에서 비교한 결과, 모든 이전 방법보다 현저한 성능 향상을 보였으며(절대 정확도 기준 4~16% 향상), 해석 가능성과 모듈성과 같은 정성적 이점도 제공함을 확인하였다.

REALM: 검색 증강 언어 모델 사전 훈련 | 최신 연구 논문 | HyperAI초신경