MASS: 언어 생성을 위한 마스킹된 시퀀스 투 시퀀스 사전 학습

事전 학습(pre-training)과 미세 조정(fine-tuning), 예를 들어 BERT는 풍부한 자원을 가진 사전 학습 작업에서 지식을 저자원 또는 제로자원 다운스트림 작업으로 전이하여 언어 이해 분야에서 큰 성공을 거두었습니다. BERT의 성공에 영감을 받아, 우리는 인코더-디코더 기반의 언어 생성 작업을 위해 MAsked Sequence to Sequence 사전 학습(MASS)을 제안합니다. MASS는 인코더-디코더 프레임워크를 채택하여 문장의 나머지 부분이 주어졌을 때 문장의 일부를 재구성하는 데 사용됩니다: 그 인코더는 무작위로 마스킹된 부분(여러 개의 연속된 토큰)이 있는 문장을 입력으로 받고, 디코더는 이 마스킹된 부분을 예측하려고 합니다. 이러한 방식으로, MASS는 표현 추출과 언어 모델링 능력을 개발하기 위해 인코더와 디코더를 공동으로 훈련시킬 수 있습니다. 다양한 제로/저자원 언어 생성 작업, 신경망 기계 번역(neural machine translation), 텍스트 요약(text summarization), 대화형 응답 생성(conversational response generation)(총 3개의 작업 및 8개의 데이터셋)에서 추가적인 미세 조정을 통해, MASS는 사전 학습 없이나 다른 사전 학습 방법을 사용한 기준 모델들보다 유의미한 개선을 이루었습니다. 특히, 비지도 영어-프랑스어 번역에서 최신 BLEU 점수(37.5)로 최고 수준의 정확도를 달성했으며, 초기 어텐션 기반 감독 모델까지 능가했습니다.