13일 전

IndicNLPSuite: 인도 언어를 위한 단어어휘, 평가 벤치마크 및 사전 훈련된 다국어 언어 모델

{Pratyush Kumar., Mitesh M. Khapra, Avik Bhattacharyya, Gokul N.C., Satish Golla, Anoop Kunchukuttan, Divyanshu Kakwani}
IndicNLPSuite: 인도 언어를 위한 단어어휘, 평가 벤치마크 및 사전 훈련된 다국어 언어 모델
초록

본 논문에서는 두 가지 주요 언어계통에 속하는 11개 주요 인도 언어를 위한 자연어처리(NLP) 자원을 소개한다. 이러한 자원은 다음을 포함한다: (a) 대규모 문장 수준의 단일언어 코퍼스, (b) 사전 훈련된 단어 임베딩, (c) 사전 훈련된 언어 모델, 그리고 (d) 다수의 자연어 이해(NLU) 평가 데이터셋(IndicGLUE 벤치마크). 단일언어 코퍼스는 총 11개 인도 언어와 인도 영어를 포함해 88억 개의 토큰을 수록하고 있으며, 주로 뉴스 웹 크롤링을 통해 수집되었다. 단어 임베딩은 FastText 기반으로, 인도 언어의 형태론적 복잡성을 효과적으로 다룰 수 있도록 설계되었다. 사전 훈련된 언어 모델은 컴팩트한 ALBERT 모델을 기반으로 하며, 효율적인 계산을 가능하게 한다. 마지막으로, 인도 언어의 NLU 연구를 위한 IndicGLUE 벤치마크를 구축하였다. 이를 위해 다음의 작업을 위한 데이터셋을 개발하였다: 기사 장르 분류(Article Genre Classification), 제목 예측(Headline Prediction), 위키백과 섹션 제목 예측(Wikipedia Section-Title Prediction), 클로즈 스타일 다중 선택형 질의응답(QA), Winograd NLI, COPA. 또한 명명된 실체 인식(Named Entity Recognition), 다언어 문장 검색(Cross-lingual Sentence Retrieval), 유사문장 탐지(Paraphrase detection) 등의 작업을 위한 일부 인도 언어에 대해 공개된 데이터셋도 포함하였다. 우리의 임베딩은 여러 작업에서 기존의 사전 훈련된 임베딩과 경쟁력 있거나 더 우수한 성능을 보였다. 이러한 데이터셋의 공개를 통해 인도 언어의 NLP 연구가 가속화되기를 기대하며, 이는 10억 명 이상의 인구에 영향을 미칠 잠재력을 지닌다. 또한, 더 다양한 언어 풀을 기반으로 NLP 기술의 발전을 평가하는 데 있어 커뮤니티에 기여할 수 있을 것이다. 데이터와 모델은 https://indicnlp.ai4bharat.org 에서 제공된다.