2ヶ月前

GlotLID: 低リソース言語の言語識別

Amir Hossein Kargaran; Ayyoob Imani; François Yvon; Hinrich Schütze
GlotLID: 低リソース言語の言語識別
要約

最近のいくつかの論文では、約300の高リソース言語と中リソース言語に対する言語識別(Language Identification, LID)の優れた解決策が発表されています。しかし、(i)低リソース言語を広範囲にカバーし、(ii)厳密に評価され信頼性が高く、(iii)効率的で使いやすいLIDは存在していません。本稿では、これらの要件を満たすGlotLID-MというLIDモデルを公表します。このモデルは1665の言語を識別でき、従来の研究よりも大幅にカバレッジが向上しています。我々の実験では、GlotLID-MはF1スコアと偽陽性率(False Positive Rate, FPR)のバランスにおいて4つのベースライン(CLD3, FT176, OpenLID, NLLB)を上回っています。また、低リソース言語のLIDが抱える独自の課題について分析しました:コーパスメタデータの誤り、高リソース言語からのリーク、近縁言語の分離困難さ、マクロ言語とその変種との対応処理、そして一般的なノイジーなデータへの対応です。我々はGlotLID-Mをデータセット作成パイプラインに統合することで、低リソース言語や文化に対するNLP技術の品質向上とアクセス性向上に貢献することを期待しています。GlotLID-Mモデル(将来バージョン含む)、コードおよびデータソースの一覧は以下のURLから入手可能です:https://github.com/cisnlp/GlotLID.