
要約
状況認識(Situation Recognition, SR)は、モデルが画像の顕著な行動を予測するだけでなく、その行動に関連するすべての意味的役割(semantic roles)の値も予測することを求める、細粒度な行動認識タスクである。意味的役割の予測は極めて困難である。なぜなら、意味的役割に該当する可能性は多岐にわたり、非常に幅広い組み合わせが考えられるからである。従来の研究では、この問題を解決するために依存関係モデリングアーキテクチャに注目してきた。一方、クエリベースの視覚的推論(例:視覚質問応答、Visual Question Answering)の成功に着想を得て、本研究では意味的役割予測をクエリベースの視覚的推論問題として捉え直すアプローチを提案する。しかし、既存のクエリベース推論手法は、SRにおける意味的役割予測に特有の「相互依存するクエリ」の処理を考慮していない。したがって、本研究の知見によれば、クエリベース推論における相互依存クエリの処理を初めて取り扱う手法群を提案するものである。広範な実験により、提案手法の有効性が実証され、状況認識タスクにおいて優れた性能を達成した。さらに、クエリ間の依存関係を活用することで、独立にクエリに応答する従来の最先端手法を上回る結果を得た。コードは以下のGitHubリポジトリにて公開されている:https://github.com/thilinicooray/context-aware-reasoning-for-sr