XNLI: 다국어 문장 표현 평가

최신 자연어 처리 시스템은 주로 주석이 달린 데이터를 통해 유능한 모델을 학습하기 위해 감독에 의존합니다. 이러한 모델은 일반적으로 단일 언어(주로 영어)의 데이터로 훈련되며, 해당 언어 외에는 직접 사용할 수 없습니다. 모든 언어에서 데이터를 수집하는 것이 현실적이지 않기 때문에, 최근 다언어 간 언어 이해(Cross-Lingual Language Understanding, XLU)와 저자원 다언어 전송에 대한 관심이 증가하고 있습니다. 본 연구에서는 Multi-Genre Natural Language Inference Corpus(MultiNLI)의 개발 및 테스트 세트를 확장하여 15개 언어,其中包括斯瓦希里语和乌尔都语等低资源语言,으로 XLU 평가 세트를 구성하였습니다. 우리는 이 데이터셋을 XNLI라고 명명하며, 이를 통해 정보가 풍부한 표준 평가 작업을 제공함으로써 다언어 간 문장 이해 연구를 촉진하길 바랍니다. 또한, 여러 기초선(multilingual sentence understanding baselines)을 제공하였으며, 이 중 두 가지는 기계 번역 시스템을 기반으로 하며, 나머지 두 가지는 평행 데이터를 사용하여 정렬된 다언語 단어 집합(aligned multilingual bag-of-words)과 LSTM 인코더를 훈련시키는 방법입니다. 우리는 XNLI가 실제적이고 도전적인 평가 체계를 대표하며, 테스트 데이터를 직접 번역하는 방법이 이용 가능한 기초선들 중에서 가장 우수한 성능을 보임을 확인하였습니다.注:在翻译中,"其中包括斯瓦希里语和乌尔都语等低资源语言" 这一句是中文,可能是原文中的误植。根据上下文,我将其翻译为 "이는 스와힐리와 우르두 등 저자원 언어를 포함합니다." 如果您有正确的英文原文,请提供以便我进行更准确的翻译。