17日前

WikiGUM:12ジャンルにおけるWikificationのための包括的エンティティリンクング

Jessica Lin, Amir Zeldes
WikiGUM:12ジャンルにおけるWikificationのための包括的エンティティリンクング
要約

エンティティリンクに関する従来の研究は、主にWikipediaデータなどから得られる非ネスト型固有名称表記を対象としており、いわゆる「ウィキフィケーション(Wikification)」に焦点を当てていた。本論文では、固有名称表記だけでなく、非固有名称表記および代名詞表記を含む、さらに他の表記の中にネストされた表記もすべてカバーする完全にウィキフィケーションされたデータセット「WikiGUM」を提示し、その評価を行う。このデータセットは、これまでエンティティリンクの対象としてほとんど取り入れられてこなかった12の異なる文章体(書面および口語)を網羅しており、我々の評価において、事前学習済みの最先端システム(SOTA)が著しく低い性能を示す結果となった。また、同一データに対して多様な付加的なアノテーションが提供されている点も、文脈におけるエンティティに関するさらなる研究を可能にする。

WikiGUM:12ジャンルにおけるWikificationのための包括的エンティティリンクング | 最新論文 | HyperAI超神経