2ヶ月前

BERTベースのラベルおよびインスタンス埋め込みを用いた遠隔監督関係抽出の改善

Despina Christou; Grigorios Tsoumakas
BERTベースのラベルおよびインスタンス埋め込みを用いた遠隔監督関係抽出の改善
要約

遠隔監督関係抽出(RE)は、大規模なコーパスに対してREを拡張する効果的な方法ですが、ノイジーなラベルの問題に悩まされています。既存のアプローチでは、多实例学習や追加情報の提供を通じてノイズを軽減しようと試みていますが、主に頻度が高い関係だけを認識し、ロングテールにある関係は無視されがちです。本研究では、REDSandT(Relation Extraction with Distant Supervision and Transformers:遠隔監督とトランスフォーマーに基づく関係抽出)という新しい遠隔監督型トランスフォーマーベースのRE手法を提案します。この手法は、BERTの事前学習モデルとラベルとエンティティ間の関係性を活用することで、情報量豊富なインスタンスおよびラベル埋め込みを生成し、より広範な関係を捉えることが可能です。REDSandTでは、エンティティペアを結ぶ部分木とエンティティのタイプを含む構造化入力でBERTをファインチューニングすることにより、リレーショナルトークンのみに焦点を当てるようガイドします。抽出された情報量豊富なベクトルを使用してラベル埋め込みを作成し、これをインスタンス上の注意メカニズムとしても利用することでさらにノイズを削減します。最後に、リレーション埋め込みとインスタンス埋め込みを連結して文を表現します。NYT-10データセットでの実験結果から、REDSandTはより広範な関係を高い信頼性で捉えられること示されており、最先端のAUC(0.424)を達成しています。注:「多实例学習」は一般的には「マルチインスタンス学習」と訳されることが多いですが、「多实例」の表記も使用されることから両方とも記載しました。ただし、「マルチインスタンス学習」の方がより一般的です。

BERTベースのラベルおよびインスタンス埋め込みを用いた遠隔監督関係抽出の改善 | 最新論文 | HyperAI超神経