概要

本稿では、インドの主要11言語（2大語族に属する）に対する自然言語処理（NLP）リソースを紹介する。これらのリソースは以下の4つから構成される：(a) 大規模な文単位の単言語コーパス、(b) 事前学習済み単語埋め込み、(c) 事前学習済み言語モデル、および (d) 複数の自然言語理解（NLU）評価データセット（IndicGLUEベンチマーク）。単言語コーパスは、全11言語およびインド英語を含め、合計88億トークンをカバーしており、主にニュースのクロールデータから構成されている。単語埋め込みはFastTextに基づいており、インド言語に特有の語形変化の複雑さに対応できる。事前学習済み言語モデルは、コンパクトなALBERTモデルをベースとしている。さらに、インド言語のNLUを評価するためのIndicGLUEベンチマークを構築した。これに伴い、以下のタスク用のデータセットを構築した：記事ジャンル分類、見出し予測、Wikipediaセクションタイトル予測、クローズ形式の多肢選択型質問応答（QA）、Winograd NLI、およびCOPA。また、名前付きエンティティ認識（NER）、異言語文検索、類義表現検出などのタスクに関して、一部のインド言語について公開済みのデータセットも含めた。本研究で提供する埋め込み表現は、複数のタスクにおいて既存の事前学習済み埋め込みと同等あるいはそれ以上に高い性能を示した。本データセットの公開により、10億人以上に影響を与える可能性を秘めたインド語NLP研究の進展が加速すると期待される。また、より多様な言語群を対象としたNLP技術の進歩を評価するためのコミュニティの基盤としても貢献する。データおよびモデルは、https://indicnlp.ai4bharat.org にて公開されている。

ソースPDF コードを表示