2달 전
事전 학습 언어 모델에서 임베딩 결합 재고려하기
Hyung Won Chung; Thibault Févry; Henry Tsai; Melvin Johnson; Sebastian Ruder

초록
우리는 최신 사전 훈련 언어 모델에서 입력 및 출력 임베딩 간의 가중치 공유를 표준으로 삼는 관행을 재평가합니다. 분리된 임베딩이 모델링 유연성을 증가시키며, 이를 통해 다국어 모델의 입력 임베딩에서 매개변수 할당 효율성을 크게 개선할 수 있음을 보여줍니다. 트랜스포머 계층에서 입력 임베딩 매개변수를 재할당함으로써, 미세 조정(fine-tuning) 과정에서 동일한 매개변수 수로 표준 자연어 이해 작업에서 현저히 더 나은 성능을 달성하였습니다. 또한 출력 임베딩에 추가적인 용량을 할당하면, 사전 훈련 후 출력 임베딩이 폐기되더라도 미세 조정 단계에서도 모델에 지속적인 이점을 제공함을 보였습니다. 우리의 분석 결과는 더 큰 출력 임베딩이 모델의 마지막 계층들이 사전 훈련 작업에 과도하게 특화되는 것을 방지하고, 트랜스포머 표현이 더욱 일반적이며 다른 작업과 언어로의 전이 가능성을 높임을 나타냅니다. 이러한 발견들을 활용하여, 미세 조정 단계에서 매개변수 수를 늘리지 않고 XTREME 벤치마크에서 강력한 성능을 달성하는 모델들을 훈련시킬 수 있었습니다.