
要約
クラスタリングに基づく教師なし関係抽出手法は、オープン関係抽出(OpenRE)における重要な手法の一つとして徐々に定着しつつある。しかしながら、高次元ベクトルは複雑な言語的情報を符号化することができる反面、得られるクラスタが関係の意味的クラスと明示的に対応しないという問題が生じる。本研究では、関係指向のクラスタリングモデルを提案し、ラベルなしデータにおける新規関係の同定に活用する。具体的には、関係データをクラスタリングする能力をモデルに付与するため、事前に定義された関係のラベル付きデータを活用して、関係指向の表現を学習する。同じ関係に属するインスタンス同士の距離を最小化するように、各インスタンスを対応する関係の重心に集約することでクラスタ構造を形成し、学習された表現がクラスタリングに適した性質を持つようにする。また、事前に定義されたクラスに対するクラスタリングバイアスを軽減するため、ラベル付きデータとラベルなしデータの両方に対して統合的な目的関数を最小化することでモデルを最適化する。実験の結果、本手法は現在の最先端(SOTA)手法と比較して、2つのデータセットにおいてそれぞれ29.2%および15.7%の誤差率低下を達成した。