17日前

Few-NERD:Few-Shot Named Entity Recognition データセット

Ning Ding, Guangwei Xu, Yulin Chen, Xiaobin Wang, Xu Han, Pengjun Xie, Hai-Tao Zheng, Zhiyuan Liu
Few-NERD:Few-Shot Named Entity Recognition データセット
要約

近年、少サンプル命名エンティティ認識(Few-shot Named Entity Recognition: NER)に関する研究文献が著しく増加しているが、実用的かつ挑戦的なタスクに特化した公表済みのベンチマークデータは依然として少ない。現在のアプローチでは、既存の教師ありNERデータセットを収集し、それを少サンプル設定に再構成して実証的研究を行っている。これらの手法は従来、少数の例で粗い粒度(coarse-grained)のエンティティタイプを認識することを目的としているが、実際の場面では未観測のエンティティタイプの多くが細かい粒度(fine-grained)である。本論文では、8種類の粗粒度および66種類の細粒度エンティティタイプを備えた階層構造を持つ、大規模な人手によるアノテーションを施した少サンプルNERデータセット「Few-NERD」を提案する。Few-NERDはWikipediaから抽出された188,238文から構成されており、合計4,601,160語が含まれ、それぞれが文脈情報または二段階のエンティティタイプの一部としてアノテーションされている。筆者らの知る限り、これは初めての少サンプルNERデータセットであり、また人手で構築された最大規模のNERデータセットである。モデルの汎化能力を包括的に評価するために、異なる重点を置いたベンチマークタスクを構築した。広範な実証的結果と分析から、Few-NERDが極めて挑戦的であり、この問題に対するさらなる研究が求められることを示した。Few-NERDは、https://ningding97.github.io/fewnerd/ にて公開されている。

Few-NERD:Few-Shot Named Entity Recognition データセット | 最新論文 | HyperAI超神経