DeBERTa: 분리된 주의 메커니즘을 갖춘 디코딩 강화 BERT

최근 사전 훈련된 신경망 언어 모델의 발전은 자연어 처리(NLP) 작업의 성능을 크게 향상시켰다. 본 논문에서는 BERT와 RoBERTa 모델을 개선하기 위해 두 가지 새로운 기법을 활용한 새로운 모델 아키텍처인 DeBERTa(분리된 주의 메커니즘을 갖춘 디코딩 강화 BERT)를 제안한다. 첫 번째로, 각 단어를 내용(content)과 위치(position)를 각각 표현하는 두 개의 벡터로 나타내는 분리된 주의(Disentangled Attention) 메커니즘을 도입한다. 이 메커니즘은 단어 간의 주의 가중치를 내용과 상대적 위치에 대해 각각 분리된 행렬을 사용하여 계산한다. 두 번째로, 마스크된 토큰을 예측하기 위한 디코딩 레이어에서 절대적 위치 정보를 효과적으로 통합하기 위해 개선된 마스크 디코더를 사용한다. 또한, 모델의 일반화 성능을 향상시키기 위해 미세조정 단계에서 새로운 가상 대안 훈련(Virtual Adversarial Training) 방법을 도입한다. 본 연구에서는 이러한 기법들이 모델 사전 훈련의 효율성과 자연어 이해(NLU) 및 자연어 생성(NLG) 등의 하류 작업에서의 성능을 크게 향상시킴을 보여준다. RoBERTa-Large에 비해 훈련 데이터의 절반만으로 학습된 DeBERTa 모델은 다양한 NLP 작업에서 일관되게 우수한 성능을 기록하며, MNLI에서는 +0.9% (90.2% 대 91.1%), SQuAD v2.0에서는 +2.3% (88.4% 대 90.7%), RACE에서는 +3.6% (83.2% 대 86.8%)의 성능 향상을 달성한다. 특히, 48개의 Transformer 계층과 15억 개의 파라미터를 가진 더 큰 버전의 DeBERTa를 확장하여 훈련함으로써, 단일 DeBERTa 모델이 SuperGLUE 벤치마크(Wang 등, 2019a)에서 매크로 평균 점수 기준으로 처음으로 인간 성능을 초과하게 되었다(89.9 대 89.8). 또한, 2021년 1월 6일 기준으로 앙상블된 DeBERTa 모델은 SuperGLUE 리더보드 상단에 위치하며 인간 기준을 명확한 차이로 상회하는 성능(90.3 대 89.8)을 보였다.