17일 전

DeBERTaV3: 기울기 분리 임베딩 공유를 활용한 ELECTRA 스타일 사전 훈련을 통한 DeBERTa 개선

Pengcheng He, Jianfeng Gao, Weizhu Chen
DeBERTaV3: 기울기 분리 임베딩 공유를 활용한 ELECTRA 스타일 사전 훈련을 통한 DeBERTa 개선
초록

이 논문은 마스크 언어 모델링(Masked Language Modeling, MLM)을 더 효율적인 샘플 사용이 가능한 대체 토큰 탐지(Replaced Token Detection, RTD)로 대체함으로써 원래의 DeBERTa 모델을 개선한 새로운 사전 훈련 언어 모델인 DeBERTaV3을 제안한다. 우리의 분석 결과, ELECTRA에서 사용하는 일반적인 임베딩 공유 방식은 훈련 효율성과 모델 성능을 저하시키는 것으로 나타났다. 이는 판별기(discriminator)와 생성기(generator)의 훈련 손실이 서로 다른 방향으로 토큰 임베딩을 이끌어내며, '당김의 전쟁'(tug-of-war) 동역학을 유발하기 때문이다. 이를 해결하기 위해 우리는 이러한 당김의 전쟁 동역학을 피할 수 있는 새로운 그래디언트 분리형 임베딩 공유 방법을 제안하였으며, 이는 훈련 효율성과 사전 훈련 모델의 품질을 모두 향상시킨다. DeBERTa와 동일한 설정을 사용하여 DeBERTaV3을 사전 훈련함으로써, 다양한 하류 자연어 이해(Natural Language Understanding, NLU) 작업에서 뛰어난 성능을 입증하였다. 예를 들어, 8개의 작업으로 구성된 GLUE 벤치마크에서 DeBERTaV3 Large 모델은 평균 91.37%의 점수를 기록하였으며, DeBERTa보다 1.37% 높고, ELECTRA보다는 1.91% 높은 성능을 보여, 유사한 구조를 가진 모델들 중에서 새로운 최고 성능(SOTA)을 달성하였다. 또한 다국어 모델인 mDeBERTa도 사전 훈련하였으며, 영어 모델보다 강력한 기준 모델 대비 더 큰 성능 향상을 관찰하였다. 예를 들어, mDeBERTa Base는 XNLI 벤치마크에서 79.8%의 제로샷 다국어 정확도를 달성하였으며, XLM-R Base보다 3.6% 높은 성능을 보여, 해당 벤치마크에서 새로운 SOTA를 기록하였다. 본 연구에서 사전 훈련된 모델과 추론 코드는 공개되어 있으며, GitHub 페이지(https://github.com/microsoft/DeBERTa)에서 확인할 수 있다.