
要約
長期的な行動は、物体、運動、サブアクションなど多くの重要な視覚的概念を含み、これらの概念の間に多様な関係が存在する。これらを基本関係と呼ぶ。これらの基本関係は、長期的行動の時間的変化過程において互いに影響し合い、高次の関係を形成する。この高次の関係は、長期的行動認識において不可欠な要素である。本研究では、長期的行動における高次の関係を効果的に活用するため、グラフに基づく高次関係モデリング(Graph-based High-order Relation Modeling; GHRM)モジュールを提案する。GHRMでは、長期的行動内の各基本関係がグラフとして表現され、グラフの各ノードは長時間の動画内のセグメントを表す。さらに、各基本関係をモデリングする際、GHRMは他のすべての基本関係からの情報を統合するため、長期的行動における高次の関係を効果的に捉えることが可能となる。時間軸方向における高次関係をより適切に活用するため、局所的な時間的高次関係とグローバルな意味的高次関係をそれぞれモデル化することを目的とした、Temporal-GHRMブランチとSemantic-GHRMブランチから構成されるGHRM層を設計した。本モデルの有効性は、Breakfast、Charades、MultiThumosの3つの長期的行動認識データセットにおける実験結果により確認された。