MPNet: 언어 이해를 위한 마스킹 및 순서 변경 사전 학습

BERT는 마스킹 언어 모델링(Masked Language Modeling, MLM)을 사전 학습에 사용하며, 가장 성공적인 사전 학습 모델 중 하나입니다. BERT는 예측된 토큰 간의 의존성을 무시하기 때문에, XLNet은 이 문제를 해결하기 위해 순열 언어 모델링(Permuted Language Modeling, PLM)을 도입하여 사전 학습을 수행합니다. 그러나 XLNet은 문장의 전체 위치 정보를 활용하지 못하므로, 사전 학습과 미세 조정(fine-tuning) 사이에서 위치 불일치(Position Discrepancy) 문제가 발생합니다. 본 논문에서는 BERT와 XLNet의 장점을 계승하면서 그 한계를 극복하는 새로운 사전 학습 방법인 MPNet을 제안합니다. MPNet은 순열 언어 모델링(PLM)을 통해 예측된 토큰 간의 의존성을 활용하고, 보조 위치 정보를 입력으로 받아 전체 문장을 인식할 수 있도록 하여 위치 불일치 문제를 줄입니다(BERT의 MLM 대비). 우리는 대규모 데이터셋(160GB 이상의 텍스트 코퍼스)에서 MPNet을 사전 학습시키고 다양한 다운스트림 작업(GLUE, SQuAD 등)에서 미세 조정을 수행했습니다. 실험 결과, MPNet은 MLM과 PLM보다 크게 우수한 성능을 보였으며, 동일한 모델 설정 하에서 기존 최신 사전 학습 방법(BERT, XLNet, RoBERTa 등)보다 더 좋은 결과를 달성했습니다. 코드와 사전 학습된 모델은 다음 링크에서 확인 가능합니다: https://github.com/microsoft/MPNet.