2달 전
RoBERTa: 강건하게 최적화된 BERT 사전 학습 방법
Yinhan Liu; Myle Ott; Naman Goyal; Jingfei Du; Mandar Joshi; Danqi Chen; Omer Levy; Mike Lewis; Luke Zettlemoyer; Veselin Stoyanov

초록
언어 모델 사전 학습은 성능 향상에 크게 기여하였으나, 다양한 접근 방식 간의 신중한 비교는 어려움을 겪고 있습니다. 학습은 계산적으로 비용이 많이 들며, 종종 크기가 다른 사적인 데이터셋에서 이루어지며, 우리가 보여드릴 것처럼 하이퍼파라미터 선택이 최종 결과에 큰 영향을 미칩니다. 본 연구에서는 BERT 사전 학습 (Devlin 등, 2019)을 재현하여 여러 주요 하이퍼파라미터와 학습 데이터 크기에 대한 영향을 체계적으로 측정합니다. 우리는 BERT가 상당히 부족하게 학습되었음을 발견하였으며, 이후 발표된 모든 모델의 성능을 일치시키거나 초월할 수 있었습니다. 우리의 최고 모델은 GLUE, RACE 및 SQuAD에서 최신 기술 수준의 결과를 달성하였습니다. 이러한 결과는 이전에 간과되었던 설계 선택의 중요성을 강조하며, 최근 보고된 개선사항의 출처에 대해 의문을 제기합니다. 우리는 우리의 모델과 코드를 공개합니다.