2ヶ月前
ユニバーサルNER: 多言語名詞認識のゴールドスタンダードベンチマーク
Stephen Mayhew; Terra Blevins; Shuheng Liu; Marek Šuppa; Hila Gonen; Joseph Marvin Imperial; Börje F. Karlsson; Peiqin Lin; Nikola Ljubešić; LJ Miranda; Barbara Plank; Arij Riabi; Yuval Pinter

要約
私たちは、多くの言語で金標準の固有表現認識(NER)ベンチマークを開発するためのオープンでコミュニティ主導のプロジェクトであるUniversal NER(UNER)を紹介します。UNERの主要な目標は、高品質かつ多言語間で一貫性のあるアノテーションを提供し、多言語NER研究を促進および標準化することです。UNER v1には、12の異なる言語にわたるクロスリンガルの一貫性のあるスキーマでアノテーションされた18のデータセットが含まれています。本論文では、UNERのデータセット作成と構成について詳細に説明し、言語内学習およびクロスリンガル学習設定における初期モデリングベースラインも提供します。私たちは、データ、コード、適合モデルを公開しています。注:「金標準」は「gold-standard」を指し、「固有表現認識」は「Named Entity Recognition (NER)」の一般的な日本語訳です。