17日前

状況認識のためのミクスチャーカーネルグラフアテンションネットワーク

{ Leonid Sigal, Mohammed Suhail}
状況認識のためのミクスチャーカーネルグラフアテンションネットワーク
要約

顕著な行動を超えた画像理解には、シーンの文脈、物体、およびそれらが撮影された出来事において果たす役割についての推論が含まれる。近年、行動フレーム(action frames)という形で、動詞(行動)と一連の意味的役割およびエンティティ(名詞)のペアを統合的に推論するというタスクとして、状況認識(situation recognition)が提案された。画像に行動フレームをラベル付けするには、観測された画像コンテンツに基づいて、各役割に適切な名詞(値)を割り当てる必要がある。このタスクには、出力される役割割り当て間における豊かな条件付き構造的依存関係、および全体的な意味的スパース性といった、本質的な課題が存在する。本論文では、こうした課題に対処するため、新しい混合カーネル注意グラフニューラルネットワーク(GNN)アーキテクチャを提案する。本GNNは、グラフ注意メカニズムを用いることで、学習および推論時に動的なグラフ構造を実現し、役割ペア間の文脈に応じた相互作用を可能にする。我々は、imSituベンチマークデータセットを用いた実験を通じて、本モデルおよび設計選択の有効性を示し、最先端手法に対して最大10%の精度向上を達成した。