2ヶ月前

対照学習を用いた固有表現認識のためのバイエンコーダーの最適化

Sheng Zhang; Hao Cheng; Jianfeng Gao; Hoifung Poon
対照学習を用いた固有表現認識のためのバイエンコーダーの最適化
要約

私たちは、対照学習を用いて候補のテキストスパンとエンティティタイプを同じベクトル表現空間にマッピングするための両方向エンコーダー(bi-encoder)フレームワークを提案します。従来の研究では、固有表現認識(Named Entity Recognition: NER)は主にシーケンスラベリングやスパン分類として扱われてきました。しかし、我々はNERを表現学習の問題として捉え直し、エンティティ言及とそのタイプのベクトル表現間の類似性を最大化することを目指します。これにより、ネストされたNERとフラットなNERを容易に処理でき、ノイジーな自己監督信号もより効果的に活用できます。この両方向エンコーダーによるNERアプローチにおける主要な課題は、非エンティティスパンとエンティティ言及を区別することにあります。ほとんどの従来方法では、すべての非エンティティスパンを明示的に同じクラス $\texttt{Outside}$ ($\texttt{O}$) としてラベル付けしていましたが、我々は新しい動的閾値損失(dynamic thresholding loss)を導入します。実験結果は、我々の手法が教師あり設定および遠隔教師あり設定においてともに優れた性能を示し、ネストされたNERとフラットなNERに対して共通して新たな最先端となることを示しています。一般領域(例:ACE2004, ACE2005)や高価値専門分野(例:生物医学; GENIA, NCBI, BC5CDR, JNLPBA)での標準データセットにおいても同様です。コードは github.com/microsoft/binder で公開されています。

対照学習を用いた固有表現認識のためのバイエンコーダーの最適化 | 最新論文 | HyperAI超神経