11일 전

XTREME: 다국어 다중 작업 평가를 위한 대규모 다국어 벤치마크, 다국어 일반화 평가를 위한 것

{Aditya Siddhant, Junjie Hu, Sebastian Ruder, Orhan Firat, Melvin Johnson, Graham Neubig}
초록

최근 자연어처리(NLP) 분야에서 머신러닝 모델의 응용에 있어 큰 진전이 이루어진 것은 다양한 작업을 대상으로 모델을 평가하는 벤치마크의 발전에 기인한 바 크다. 그러나 이러한 포괄적인 벤치마크는 대부분 영어에 한정되어 있으며, 다국어 모델에 대한 관심이 증가하고 있음에도 불구하고, 다양한 언어와 작업을 대상으로 이러한 방법을 종합적으로 평가할 수 있는 벤치마크는 여전히 부족한 실정이다. 이를 해결하기 위해 우리는 다국어 인코더의 다국어 간 전이 능력을 평가할 수 있도록 설계된 ‘다국어 전이 평가 벤치마크(XTREME)’를 소개한다. 이 벤치마크는 40개의 언어와 9개의 작업을 대상으로 하는 다중 작업 평가 체계로, 다국어 표현의 다국어 간 일반화 능력을 종합적으로 평가할 수 있도록 구성되었다. 실험 결과, 영어를 대상으로 테스트된 모델은 많은 작업에서 인간 수준의 성능을 달성하고 있음에도 불구하고, 다국어 간 전이된 모델의 성능은 특히 문법적 구조 처리 및 문장 검색 작업에서 여전히 상당한 성능 차이를 보이고 있음을 확인하였다. 또한 언어 간 성능 차이가 매우 크다는 점도 확인되었다. 본 벤치마크는 다양한 대표적인 언어와 작업을 대상으로 언어 지식을 효과적으로 전이할 수 있는 다국어 학습 방법에 대한 연구를 촉진하기 위해 공개할 예정이다.

XTREME: 다국어 다중 작업 평가를 위한 대규모 다국어 벤치마크, 다국어 일반화 평가를 위한 것 | 최신 연구 논문 | HyperAI초신경