動画セマンティックセグメンテーションのための局所的およびグローバルな時系列コンテキストの学習

文脈情報は動画セマンティックセグメンテーション(VSS)において中心的な役割を果たす。本論文では、VSSにおける文脈を二つの側面に要約する:隣接フレームからの文脈を定義する局所的時系列文脈(LTC)と、動画全体から得られる文脈を表すグローバル時系列文脈(GTC)である。LTCについては、隣接フレーム内の静的コンテンツと動的コンテンツに対応する静的文脈と運動文脈を含む。これまでに、静的文脈および運動文脈はそれぞれ独立して研究されてきたが、両者を同時に学習する(非常に補完的)研究は存在しない。そこで、LTCの統一的な表現を学習するため、粗雑から細部への特徴マイニング(Coarse-to-Fine Feature Mining; CFFM)手法を提案する。CFFMは、粗雑から細部への特徴集合(Coarse-to-Fine Feature Assembling; CFFA)とフレーム間特徴マイニング(Cross-frame Feature Mining; CFM)の二つの構成要素からなる。CFFAは静的および運動文脈を抽象化し、CFMは近隣フレームから有用な情報を抽出してターゲット特徴を強化する。さらに時系列文脈の利用を深化させるため、動画全体からGTCを追加で学習するCFFM++を提案する。具体的には、動画から均一に一定数のフレームをサンプリングし、k-means法によりグローバル文脈プロトタイプを抽出する。これらのプロトタイプ内に含まれる情報をCFMによってマイニングし、ターゲット特徴を精緻化する。代表的なベンチマークにおける実験結果から、CFFMおよびCFFM++が最先端手法と比較して優れた性能を発揮することが示された。本研究のコードは、https://github.com/GuoleiSun/VSS-CFFM にて公開されている。