17日前
DetIE:オブジェクト検出に着想を得た多言語オープン情報抽出
Michael Vasilkovsky, Anton Alekseev, Valentin Malykh, Ilya Shenbin, Elena Tutubalina, Dmitriy Salikhov, Mikhail Stepnov, Andrey Chertok, Sergey Nikolenko

要約
最新のオープン情報抽出(OpenIE)におけるニューラル手法は、重複を回避するため、通常、逐次的かつ自己回帰的または述語ベースのアプローチで三項組(トリプル)を抽出する。本研究では、この問題に対して全く異なるアプローチを提案する。具体的には、コンピュータビジョン分野の物体検出アルゴリズムに着想を得た、単一パス(single-pass)型の新規なOpenIE手法を提示する。本手法では、一意な予測を強制するため、二部マッチングに基づく順序に依存しない損失関数と、Transformerベースのエンコーダーのみを用いたアーキテクチャを採用している。提案手法は、標準ベンチマークにおける品質指標および推論時間の両面で、最新のモデルと同等または優れた性能を発揮するとともに、より高速である。特に、CaRBデータセット(OIE2016評価基準)において、67.7%のF1スコアを達成し、従来の最先端モデルよりも推論速度が3.35倍速い。また、多言語版モデルについて、2言語におけるゼロショット設定での評価を行い、各言語に特化した微調整のために合成多言語データを生成する戦略を導入した。その結果、多言語Re-OIE2016において15%の性能向上が確認され、ポルトガル語およびスペイン語の両方で75%のF1スコアを達成した。コードおよびモデルは、https://github.com/sberbank-ai/DetIE にて公開されている。