Command Palette

Search for a command to run...

4ヶ月前

IndicNLPSuite:インド語用単語語彙、評価ベンチマークおよび事前学習済み多言語言語モデル

{Pratyush Kumar. Mitesh M. Khapra Avik Bhattacharyya Gokul N.C. Satish Golla Anoop Kunchukuttan Divyanshu Kakwani}

IndicNLPSuite:インド語用単語語彙、評価ベンチマークおよび事前学習済み多言語言語モデル

要約

本稿では、インドの主要11言語(2大語族に属する)に対する自然言語処理(NLP)リソースを紹介する。これらのリソースは以下の4つから構成される:(a) 大規模な文単位の単言語コーパス、(b) 事前学習済み単語埋め込み、(c) 事前学習済み言語モデル、および (d) 複数の自然言語理解(NLU)評価データセット(IndicGLUEベンチマーク)。単言語コーパスは、全11言語およびインド英語を含め、合計88億トークンをカバーしており、主にニュースのクロールデータから構成されている。単語埋め込みはFastTextに基づいており、インド言語に特有の語形変化の複雑さに対応できる。事前学習済み言語モデルは、コンパクトなALBERTモデルをベースとしている。さらに、インド言語のNLUを評価するためのIndicGLUEベンチマークを構築した。これに伴い、以下のタスク用のデータセットを構築した:記事ジャンル分類、見出し予測、Wikipediaセクションタイトル予測、クローズ形式の多肢選択型質問応答(QA)、Winograd NLI、およびCOPA。また、名前付きエンティティ認識(NER)、異言語文検索、類義表現検出などのタスクに関して、一部のインド言語について公開済みのデータセットも含めた。本研究で提供する埋め込み表現は、複数のタスクにおいて既存の事前学習済み埋め込みと同等あるいはそれ以上に高い性能を示した。本データセットの公開により、10億人以上に影響を与える可能性を秘めたインド語NLP研究の進展が加速すると期待される。また、より多様な言語群を対象としたNLP技術の進歩を評価するためのコミュニティの基盤としても貢献する。データおよびモデルは、https://indicnlp.ai4bharat.org にて公開されている。

ベンチマーク

ベンチマーク方法論指標
multiple-choice-qa-on-indicglue-wstp-paIndicBERT Large
Accuracy: 77.54
news-classification-on-soham-news-articleIndicBERT Base
Accuracy: 78.45
sentiment-analysis-on-iitp-movie-reviewsIndicBERT Base
Accuracy: 59.03
sentiment-analysis-on-iitp-product-reviewsIndicBERT Base
Accuracy: 71.32

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
IndicNLPSuite:インド語用単語語彙、評価ベンチマークおよび事前学習済み多言語言語モデル | 論文 | HyperAI超神経