17일 전

FarsTail: 페르시아어 자연어 추론 데이터셋

Hossein Amirkhani, Mohammad AzariJafari, Zohreh Pourjafari, Soroush Faridan-Jahromi, Zeinab Kouhkan, Azadeh Amirak
FarsTail: 페르시아어 자연어 추론 데이터셋
초록

자연어 추론(Natural Language Inference, NLI)은 자연어 처리(Natural Language Processing, NLP) 분야에서 언어 이해의 핵심적인 요소들을 포괄하는 대표적인 과제로 널리 알려져 있다. 최근 데이터 집약적인 딥러닝 기법이 NLP 과제에서 두드러진 성과를 거두면서, 다양한 언어에 대한 더 풍부한 데이터셋 개발을 위한 많은 노력이 기울여졌다. 본 논문에서는 중동 지역에서 주요 언어 중 하나인 페르시아어(또는 파르시어)를 대상으로 한 NLI 과제를 위한 새로운 데이터셋을 제안한다. 이 데이터셋은 'FarsTail'이라는 이름을 가지며, 총 10,367개의 샘플로 구성되어 있으며, 페르시아어로 제공되는 동시에 비-페르시아어 연구자들이 활용할 수 있도록 인덱싱된 형식으로도 제공된다. 이 샘플들은 3,539개의 다중 선택형 질문에서 최소한의 평가자 개입을 통해 생성되었으며, SciTail 데이터셋과 유사한 방식을 따르고 있다. 데이터셋의 품질을 보장하기 위해 철저히 설계된 다단계 프로세스가 적용되었다. 또한, word2vec, fastText, ELMo, BERT, LASER와 같은 다양한 임베딩 방법과 DecompAtt, ESIM, HBMP, ULMFiT와 같은 다양한 모델링 접근법을 활용한 전통적 및 최첨단 기법의 성능 결과를 제시하여 향후 연구를 위한 견고한 기준을 마련하였다. 최고의 테스트 정확도는 83.38%로 나타났으며, 이는 현재의 기법들이 실제 세계의 다양한 언어 기반 NLP 응용에 활용되기 위해 크게 개선될 여지가 있음을 시사한다. 또한, 모델들이 FarsTail 데이터셋 내에서 표면적인 힌트(즉, 데이터셋 편향)를 얼마나 활용하는지에 대해 조사하였으며, 편향 모델의 성공 정도에 따라 테스트 세트를 '쉬운' 및 '어려운' 하위 세트로 분할하였다. 본 데이터셋은 https://github.com/dml-qom/FarsTail에서 공개되어 있다.