
要約
物体間の関係は画像理解において重要な役割を果たします。個々の物体を認識する技術において深層学習が大きな成功を収めている一方で、物体間の関係について推論することは依然として困難な課題となっています。従来の手法では、この問題を分類問題として扱い、各種の関係(例:「乗る」)や各独自の視覚的なフレーズ(例:「人-乗る-馬」)をカテゴリとして考慮していました。しかし、これらのアプローチは、各種の関係における視覚的多様性の高さや、独自の視覚的フレーズの数が多いことによって引き起こされる著しい困難に直面しています。本研究では、この問題に対処する統合フレームワークを提案します。その中心には、物体とその関係間の統計的依存関係を特に活用するために設計された新しい構成であるディープリレーショナルネットワークがあります。提案手法は2つの大規模データセットにおいて、最先端技術に対して大幅な改善を達成しています。