17일 전
R-Drop: 신경망을 위한 정규화된 드롭아웃
Xiaobo Liang, Lijun Wu, Juntao Li, Yue Wang, Qi Meng, Tao Qin, Wei Chen, Min Zhang, Tie-Yan Liu

초록
드롭아웃은 딥 신경망 학습을 정규화하는 데 강력하고 널리 사용되는 기법이다. 본 논문에서는 드롭아웃 기반의 학습 과정에 간단한 정규화 전략인 R-Drop을 제안한다. R-Drop은 드롭아웃에 의해 생성된 서로 다른 하위 모델의 출력 분포가 서로 일관되게 유지되도록 유도한다. 구체적으로, 각 학습 샘플에 대해 드롭아웃에 의해 샘플링된 두 하위 모델의 출력 분포 간 양방향 KL 발산을 최소화한다. 이론적 분석을 통해 R-Drop이 모델 파라미터의 자유도를 감소시키며 드롭아웃을 보완함을 밝혔다. 신경 기계 번역, 개괄적 요약, 언어 이해, 언어 모델링, 이미지 분류 등 5개의 널리 사용되는 딥러닝 과제(총 18개 데이터셋)에 대한 실험 결과, R-Drop이 일반적으로 효과적임을 입증하였다. 특히, 대규모 사전 학습 모델(예: ViT, RoBERTa-large, BART)의 미세조정에 적용했을 때 큰 성능 향상을 보였으며, WMT14 영어→독어 번역(task)에서는 기존의 트랜스포머 모델 기반으로 30.91의 BLEU 점수를 기록하여, 보다 큰 규모의 데이터로 학습된 모델 및 전문가가 설계한 고도화된 트랜스포머 변형 모델을 초월하였다. 또한 WMT14 영어→프랑스어 번역(task)에서는 43.95의 BLEU 점수를 달성하여 상태의 최고(SOTA) 성능을 기록하였다. 본 연구의 코드는 GitHub에서 제공된다: {\url{https://github.com/dropreg/R-Drop}}.