2달 전
GLUE: 자연어 이해를 위한 다중 작업 벤치마크 및 분석 플랫폼
Alex Wang; Amanpreet Singh; Julian Michael; Felix Hill; Omer Levy; Samuel R. Bowman

초록
자연어 이해(NLU) 기술이 실용적으로 그리고 연구 대상으로서 최대한 유용하려면 일반적이어야 합니다. 즉, 특정 한 가지 작업이나 데이터셋에만 특화되어 있지 않고 언어를 처리할 수 있어야 합니다. 이 목표를 달성하기 위해, 우리는 다양한 기존 NLU 작업에서 모델의 성능을 평가하고 분석하는 도구인 일반 언어 이해 평가 벤치마크(GLUE)를 소개합니다. GLUE는 모델에 종속되지 않지만, 일부 작업이 매우 제한된 훈련 데이터를 가지고 있기 때문에 작업 간 지식 공유를 장려합니다. 또한, NLU 모델의 상세한 언어학적 분석을 가능하게 하는 수작업으로 작성된 진단 테스트 세트도 제공합니다. 우리는 현재 다중 작업 및 전이 학습 방법을 기반으로 하는 기준선을 평가하였으며, 이러한 방법들이 각 작업별로 별도의 모델을 훈련시키는 것보다 크게 성능을 개선하지 않는다는 것을 발견하였습니다. 이는 일반적이고 강건한 NLU 시스템 개발에 여전히 개선의 여지가 있음을 시사합니다.