12日前

深層構造ランキングを用いた視覚的関係検出

{Xilin Chen, Hong Chang, Yuhong Guo, Kongming Liang}
要約

視覚的関係検出は、対象となるオブジェクト間の相互作用を記述することを目的としている。個々のオブジェクト認識タスクとは異なり、可能な関係の数は非常に多く、これによりオブジェクトの視覚的外観にのみ依存して関係を探索することは困難である。さらに、人的労力の制約により、視覚的関係のラベル付けは通常不完全であり、モデルの学習および評価の難易度を高めている。本稿では、視覚的関係検出のための新しい枠組みである「Deep Structural Ranking」を提案する。視覚的外観による表現能力を補完するため、入力画像に含まれる関係を予測するために複数の手がかりを統合する。また、ラベル付けされた関係がより高い関連スコアを持つよう制約する新たなランキング目的関数を設計した。従来の手法とは異なり、本手法は関係の共起を促進するとともに、ラベルの不完全性問題を軽減できる。実験結果から、本手法は広く用いられている2つのデータセットにおいて、既存の最先端手法を上回ることを示した。さらに、ゼロショット関係の検出においても優れた性能を発揮することを実証した。