17日前

HiNER:大規模ヒンディー語固有名前認識データセット

Rudra Murthy, Pallab Bhattacharjee, Rahul Sharnagat, Jyotsana Khatri, Diptesh Kanojia, Pushpak Bhattacharyya
HiNER:大規模ヒンディー語固有名前認識データセット
要約

名前付きエンティティ抽出(Named Entity Recognition, NER)は、自由テキスト中の単語に「Person(人物)」「Location(場所)」「Organisation(組織)」「Time(時間)」「Number(数値)」などのカテゴリラベルを付与することを目的とする基本的な自然言語処理(NLP)タスクである。名前付きエンティティは複数語の表現であることも多く、NERのアノテーションプロセスにおいて、I-O-B(Inside-Outside-Beginning)形式の追加情報がそのラベリングを支援する。英語や欧州言語においてはNERタスク用の豊富なアノテーションデータが存在するが、インド諸言語については、データ量の面でも、アノテーション基準の遵守の面でも依然として不足している。本論文では、11種類のタグでアノテーションされた109,146文、2,220,856トークンを含む、標準に準拠した大規模なヒンディ語NERデータセットを公開する。本データセットの統計情報を詳細に提示し、使用されたNERタグセットについて深く分析する。本データセットにおけるタグセットの統計は、人物、場所、組織といった主要クラスにおいても良好なタグ分布を示しており、バランスが取れている。リソースの有効性の証明は、そのリソースを用いてモデルを構築し、ベンチマークデータ上で評価し、共有タスクにおけるリーダーボードの結果と比較することにかかっている。本研究でも同様に、公開されたデータセットを用いて異なる言語モデルによるシーケンスラベリングタスクを実施し、ヒンディ語NERタスクで既存の別のデータセットで学習されたモデルと比較評価を行う。その結果、本データセットを用いることで、すべてのタグを対象とした重み付きF1スコア88.78、タグセットを縮約した場合に92.22という高いスコアを達成した。本研究の知見によれば、ヒンディ語NERの文脈において、量的規模と多様性(バリエーション)の両面で標準を満たすデータセットはこれまで存在しなかった。本研究はこのギャップを埋め、ヒンディ語におけるNLPの発展に大きく貢献することが期待される。本データセットおよび関連コード・モデルは、GitHub(https://github.com/cfiltnlp/HiNER)にて公開している。

HiNER:大規模ヒンディー語固有名前認識データセット | 最新論文 | HyperAI超神経