
要約
現代のニューラル型OpenIEシステムおよびベンチマークの大きな欠点は、抽出結果のカバレッジ(網羅性)を重視するあまり、抽出構成要素のコンパクト性(簡潔性)を軽視している点にある。このため、多くの下流タスクにおけるOpenIE抽出結果の実用性が著しく制限されている。抽出結果がコンパクトであり、構成要素を共有する形であれば、その有用性は顕著に向上する。こうした課題に応えるために、ニューラルベースの手法を用いたコンパクトな抽出を実現する問題を検討する。本研究では、重複する構成要素を有するコンパクトな抽出を生成するための新しいパイプラインアプローチを採用したOpenIEシステム「CompactIE」を提案する。本システムは、まず抽出の構成要素を検出し、その後それらをリンクして抽出を構築する。我々は、既存のベンチマークを処理して得られたコンパクトな抽出データを用いてシステムを学習させる。CaRBおよびWire57データセットにおける実験結果から、CompactIEは従来のシステムと比較して1.5倍から2倍のコンパクトな抽出を発見でき、高い正確性を維持していることが明らかとなり、OpenIE分野における新たな最先端性能を確立した。