
要約
視覚関係の理解には、主語、目的語、およびそれらを結びつける述語の特定が含まれます。私たちは、述語と(主語, 目的語)ペアとの間の強い相関関係(意味的にも空間的にも)を利用して、主語と目的語に基づいて述語を予測します。3つのエンティティを共同でモデリングすることは、それらの関係をより正確に反映しますが、視覚的な関係の意味空間が非常に大きく、訓練データが限られていることから学習が複雑になります。特に、少数のインスタンスしかない長尾分布の関係についてはその傾向が顕著です。これを克服するために、言語統計に関する知識を使用して視覚モデルの学習を正則化します。言語的な知識は、訓練アノテーション(内部知識)や公開されているテキスト(外部知識)、例えばWikipediaから採掘し、(主語, 目的語)ペアを与えたときの述語の条件付き確率分布を計算することで得られます。その後、この知識を深層モデルに蒸留させることでより良い汎化性能を達成します。Visual Relationship Detection (VRD) データセットとVisual Genomeデータセットでの実験結果は示していますが、この言語的な知識蒸留により、私たちのモデルは未見の関係を予測する際特に現行最良手法よりも大幅に優れた性能を発揮しており(例:VRDゼロショットテストセットにおける再現率は8.45%から19.17%へ向上しました)。