Command Palette
Search for a command to run...
ノードからグラフへ:視覚的意味関係グラフにおける連合推論によるゼロショット検出
ノードからグラフへ:視覚的意味関係グラフにおける連合推論によるゼロショット検出
Xilin Chen Ruiping Wang Hui Nie
概要
ゼロショット検出(Zero-Shot Detection, ZSD)は、複雑なシーン内に存在する未観測の物体を局所化し、認識することを目的としており、通常は個々の物体の視覚的および意味的情報を単独で利用する。しかし、人間のシーン理解は個々の物体を別々に認識するだけにとどまらない。複数の物体間における文脈的情報、例えば視覚的関係性(例:視覚的に類似する物体)や意味的関係性(例:共起関係)は、視覚シーンの理解に有効である。本論文では、文脈的情報が従来の物体検出よりもZSDにおいてより重要な役割を果たすことを実証する。このような情報を十分に活用するため、個々の物体ではなく複数の物体の視覚的および意味的情報を同時に考慮する、グラフモデリングと推論に基づく新しいエンドツーエンド型ZSD手法である「グラフアライニングネットワーク(GRAN)」を提案する。具体的には、画像内の物体をノードとし、クラスの意味表現をノードとするそれぞれの視覚的関係グラフ(Visual Relational Graph, VRG)と意味的関係グラフ(Semantic Relational Graph, SRG)を構築する。各グラフ内のノード間の関連性をエッジとして表現する。さらに、2つのモダリティ間の相互作用を明確に表現するため、これらの2つのグラフを統合して異種的視覚-意味関係グラフ(Heterogeneous Visual-Semantic Relational Graph, VSRG)に統合する。VSRGでは、2つの部分グラフ間でモダリティ変換器(モダリティトランスレータ)を設計し、各モダリティの情報が共通空間に変換され、相互コミュニケーションが可能となるようにする。また、ノード間でのメッセージ伝達を強制することで、ノード表現の精緻化を図る。MSCOCOデータセットにおける包括的な実験により、本手法が最先端技術を上回る性能を発揮することが示された。さらに、定性的な分析から、文脈的情報を活用する有効性が裏付けられた。