7일 전

UniDrop: 추가 비용 없이 Transformer 성능을 향상시키는 간단하면서도 효과적인 기법

Zhen Wu, Lijun Wu, Qi Meng, Yingce Xia, Shufang Xie, Tao Qin, Xinyu Dai, Tie-Yan Liu
UniDrop: 추가 비용 없이 Transformer 성능을 향상시키는 간단하면서도 효과적인 기법
초록

Transformer 아키텍처는 다양한 자연어 처리 작업에서 큰 성공을 거두었다. Transformer 모델의 과도한 파라미터화는 더 우수한 성능을 달성하기 위해 과적합을 완화하기 위한 많은 연구를 촉발시켰다. 일부 탐색을 통해 우리는 드롭아웃과 같은 간단한 기법이 주의 깊은 설계를 통해 모델 성능을 크게 향상시킬 수 있음을 발견하였다. 따라서 본 논문에서는 다양한 드롭아웃 기법을 Transformer 모델의 학습 과정에 통합한다. 구체적으로, 세부적인 것부터 거시적인 것으로 이르는 세 가지 드롭아웃 기법—특징 드롭아웃(feature dropout), 구조 드롭아웃(structure dropout), 데이터 드롭아웃(data dropout)—을 통합하는 UniDrop라는 새로운 접근법을 제안한다. 이론적으로, 이러한 세 가지 드롭아웃이 정규화 관점에서 서로 다른 역할을 수행함을 입증하였다. 실험적으로는 신경 기계 번역 및 텍스트 분류 벤치마크 데이터셋에서 폭넓은 실험을 수행하였다. 결과는 UniDrop를 적용한 Transformer 모델이 IWSLT14 번역 작업에서 약 1.5 BLEU의 성능 향상을 달성하며, 강력한 사전 학습된 RoBERTa 모델을 백본으로 사용하는 경우에도 분류 정확도에서 우수한 성능을 보임을 보여주었다.

UniDrop: 추가 비용 없이 Transformer 성능을 향상시키는 간단하면서도 효과적인 기법 | 최신 연구 논문 | HyperAI초신경