16일 전

적대적 자기주의 주의(Langauge Understanding을 위한 적대적 자기주의 주의)

Hongqiu Wu, Ruixue Ding, Hai Zhao, Pengjun Xie, Fei Huang, Min Zhang
적대적 자기주의 주의(Langauge Understanding을 위한 적대적 자기주의 주의)
초록

딥 신경망 모델(예: Transformer)은 본질적으로 부정확한 특징(spurious features)을 학습하게 되며, 이는 입력과 레이블 사이에 '단순한 경로(spoiler)'를 형성하여 일반화 능력과 견고성(robustness)을 저해한다. 본 연구는 Transformer 기반의 사전 학습된 언어 모델(예: BERT)에 대해 자기 주의(self-attention) 메커니즘을 보다 견고한 형태로 발전시킨다. 우리는 \textit{적대적 자기 주의(Adversarial Self-Attention, ASA)} 메커니즘을 제안한다. 이는 주의(attention)를 적대적으로 왜곡함으로써 모델이 특정 키워드와 같은 특정 특징에 의존하는 경향을 효과적으로 억제하고, 더 넓은 의미적 맥락을 탐색하도록 유도한다. 본 연구는 사전 학습 및 미세 조정(fine-tuning) 단계를 포함한 다양한 작업에 걸쳐 포괄적인 평가를 수행하였다. 사전 학습 단계에서는, 긴 학습 스텝에 걸쳐 전통적인 학습 방식 대비 ASA가 뛰어난 성능 향상을 보였다. 미세 조정 단계에서는 일반화 능력과 견고성 측면에서 모두 ASA를 적용한 모델이 전통적 모델을 크게 상회하였다.