
要約
本論文では、制約のない動画における移動物体のセグメンテーションタスクに取り組んでいます。この目的を達成するために、明示的なメモリーモジュールを持つ新しい二ストリーム神経ネットワークを提案します。ネットワークの二つのストリームは、それぞれ動画シーケンス内の空間的特徴と時間的特徴を符号化します。一方、メモリーモジュールは物体の時間的な変化を捉えます。ビデオ内の「視覚記憶」、つまりすべてのビデオフレームの合同表現を構築するためのモジュールは、少数の学習用ビデオシーケンスから学習した畳み込み再帰単位によって実現されます。入力としてビデオフレームが与えられた場合、当手法は学習された空間時間的特徴およびビデオ固有の「視覚記憶」(手動でアノテーションされたフレームなしで自動的に取得)に基づいて各ピクセルに物体または背景ラベルを割り当てます。「視覚記憶」は畳み込みゲート付き再帰単位により実装されており、これにより空間情報が時間的に伝播することが可能になります。我々はDAVISおよびFreiburg-Berkeley運動セグメンテーションデータセットという二つのベンチマークで当手法を広範に評価し、最先端の結果を示しています。例えば、当手法はDAVISデータセットにおいて最上位の方法よりも約6%高い性能を達成しています。また、提案されたフレームワーク内の各コンポーネントの影響について詳細な分解能分析も提供しています。