대립적 GLUE: 언어 모델의 강건성 평가를 위한 다중 작업 벤치마크

대규모 사전 학습 언어 모델은 자연어 이해(NLU) 작업 전반에서 놀라운 성과를 거두었으며, 일부 영역에서는 인간의 성능을 초월하기도 한다. 그러나 최근 연구들은 이러한 모델의 강건성(robustness)이 주의 깊게 설계된 텍스트 적대적 예제(adversarial examples)에 의해 도전받을 수 있음을 밝혀냈다. 기존에 여러 개의 개별 데이터셋이 제안되었지만, 체계적이고 포괄적인 벤치마크는 여전히 부족한 실정이다. 본 논문에서는 다양한 유형의 적대적 공격 하에서 현대 대규모 언어 모델의 취약성을 정량적이고 체계적으로 탐구하고 평가하기 위해 새로운 다중 작업 벤치마크인 Adversarial GLUE(AdvGLUE)를 제안한다. 특히, GLUE 작업에 대해 14가지 텍스트 적대적 공격 방법을 체계적으로 적용하여 AdvGLUE를 구축하였으며, 신뢰할 수 있는 레이블링을 위해 인간의 검증도 추가로 수행하였다. 본 연구의 주요 발견은 다음과 같다. (i) 기존의 대부분의 적대적 공격 알고리즘은 유효하지 않거나 모호한 적대적 예제를 생성하는 경향이 있으며, 약 90%의 경우 원본 의미를 변경하거나 인간 평가자들을 오도하는 문제가 발생한다. 따라서 고품질 벤치마크를 구성하기 위해 신중한 필터링 과정을 수행하였다. (ii) 테스트한 모든 언어 모델과 강건 학습 방법은 AdvGLUE에서 매우 낮은 성능을 보였으며, 일반적인 정확도(benign accuracy)에 비해 크게 뒤처졌다. 본 연구가 더 은밀하고 의미 보존 능력을 갖춘 새로운 적대적 공격 방식 개발을 촉진하고, 고도화된 적대적 공격에 대응할 수 있는 새로운 강건한 언어 모델 개발을 이끌어내기를 기대한다. AdvGLUE는 다음 주소에서 공개된다: https://adversarialglue.github.io.