17일 전
JamPatoisNLI: 자메이카 패토아스 자연어 추론 데이터셋
Ruth-Ann Armstrong, John Hewitt, Christopher Manning

초록
JamPatoisNLI는 자국어인 잼카이카 패토아이스(Jamaican Patois)에서 자연어 추론(Natural Language Inference, NLI)을 위한 최초의 데이터셋을 제공한다. 세계에서 가장 많이 사용되는 저자원 언어들 중 다수는 크리올어(Creole)에 속한다. 이러한 언어들은 일반적으로 주요 세계 언어에서 유래한 어휘를 가지고 있으며, 원래 화자들의 언어와 크리올화 과정을 반영한 독특한 문법 구조를 갖추고 있다. 이는 크리올어가 대규모 단일 언어 또는 다국어 사전 학습 모델로부터의 전이 학습(transfer learning) 효과를 탐구하는 데 특별한 위치를 차지하게 한다. 우리의 연구를 포함한 기존 연구 결과에 따르면, 훈련 데이터셋에 포함된 언어와 관련성이 없는 저자원 언어로의 전이 학습은 그리 효과적이지 않지만, 크리올어로의 전이 학습은 더 강력한 성능을 기대할 수 있다. 실제로 실험 결과는 잼카이카 패토아이스에 대한 소수의 예제를 활용한 학습에서, 관련성이 없는 언어들보다 훨씬 우수한 성능을 보였으며, 크리올어와 그 고자원 기반 언어 간의 독특한 관계가 다국어 자연어 처리(NLP)에서의 전이 학습에 어떤 영향을 미치는지 이해하는 데 중요한 첫걸음을 내딛게 해준다. 자연적으로 발생한 전제와 전문가가 작성한 가설로 구성된 JamPatoisNLI는 전통적으로 소외되어온 언어에 대한 연구를 촉진하는 계기가 되며, 다국어 NLP의 이해를 위한 유용한 벤치마크로 기능할 수 있다.