17日前

トゥルーケーシング事前学習を用いたロバストな名前付きエンティティ認識

Stephen Mayhew, Nitish Gupta, Dan Roth
トゥルーケーシング事前学習を用いたロバストな名前付きエンティティ認識
要約

現代の名前付き実体抽出(NER)システムは標準的なデータセットでは優れた性能を発揮するが、ノイズの多いデータに対しては著しく性能が低下する。特に多くの言語において、大文字表記は実体を示す強力な手がかりとなる。しかし、最新のモデルですらこの特徴に過剰適合(overfit)しており、小文字表記のテキストでは性能が著しく低下する。本研究では、大文字・小文字の表記がノイズ混じりまたは不確実なデータに対してNERシステムの堅牢性を向上させる問題に取り組む。そのために、ラベルなしデータを活用してテキスト中の大文字・小文字表記を予測する前学習タスク(truecaser)を導入する。得られた前学習済みtruecaserは、標準的なBiLSTM-CRFモデルと統合され、文字埋め込みに出力分布を付加することでNERに利用される。さまざまなドメインや大文字表記の品質を持つ複数のデータセットにおける実験の結果、本モデルは小文字表記のテキストにおいて性能を向上させることを示した。また、小文字表記のBERT埋め込みにも追加的な価値をもたらすことが確認された。本手法は、WNUT17共有タスクデータセットにおいて新たな最良性能(SOTA)を達成した。

トゥルーケーシング事前学習を用いたロバストな名前付きエンティティ認識 | 最新論文 | HyperAI超神経