2달 전
GlotLID: 저자원 언어의 언어 식별
Amir Hossein Kargaran; Ayyoob Imani; François Yvon; Hinrich Schütze

초록
최근 몇몇 논문에서는 약 300개의 고자원 및 중간 자원 언어에 대한 언어 식별(LID)의 좋은 해결책을 발표했습니다. 그러나 (i) 저자원 언어를 광범위하게 포함하고, (ii) 엄격히 평가되어 신뢰성이 보장되며, (iii) 효율적이고 사용하기 쉬운 LID는 아직 존재하지 않습니다. 본 연구에서는 이러한 요구사항을 모두 충족하는 GlotLID-M 모델을 공개합니다. 이 모델은 1665개의 언어를 식별할 수 있으며, 기존 연구보다 커버리지가 크게 증가했습니다. 실험 결과, GlotLID-M은 F1 점수와 거짓 양성률(FPR)을 균형 있게 유지하는 데 있어 CLD3, FT176, OpenLID, NLLB 등 네 가지 베이스라인 모델을 능가하였습니다. 우리는 저자원 LID가 제기하는 독특한 도전 과제들을 분석하였습니다: 잘못된 코퍼스 메타데이터, 고자원 언어에서의 누출, 밀접한 관련성을 가진 언어 간 구분의 어려움, 매크로언어와 변이체 사이의 처리 그리고 일반적으로 노이즈가 많은 데이터입니다. 우리는 GlotLID-M을 데이터셋 생성 파이프라인에 통합함으로써 저자원 언어와 문화에 대한 자연어 처리(NLP) 기술의 품질 개선과 접근성 향상에 기여할 것으로 기대합니다. GlotLID-M 모델(미래 버전 포함), 코드 및 데이터 소스 목록은 다음과 같이 이용 가능합니다: https://github.com/cisnlp/GlotLID.