
私たちは、ビデオにおける物体セグメンテーションを空間と時間におけるグラフ分割問題として定式化し、ノードがピクセルであり、それらの関係が局所的な近傍を形成するものとします。私たちは、このピクセルレベルのグラフにおいて最強のクラスターが注目すべき物体セグメンテーションを表すと主張します。主要なクラスターは、新しいかつ高速な3次元フィルタリング技術を使用して計算されます。この技術は、グラフの隣接行列の固有ベクトル(スペクトラルクラスタリング解)を見つける方法で、行列を明示的に構築せずに(これは非現実的であるため)その解を求めます。私たちの手法は、行列の主固有ベクトルを見つけるためのパワーアイテレーションに基づいており、これを空間-時間特徴量ボリュームで特定の一連の3次元畳み込みを行うことと同等であることを証明しています。これにより、行列を作成することなくGPU上で高速な並列実装が可能になります。実験では、隣接行列に直接パワーアイテレーションを適用する古典的な手法よりも ours は遥かに高速であることが示されました。他の研究とは異なり、私たちの手法はピクセルレベルでの空間と時間における物体の一貫性を保つことに専念しています。そのため、フレームレベルでの強力なピクセル単位の特徴量が必要です。これにより、バックボーンネットワークや他の手法からの出力を組み込むことが完璧に可能となり、教師なしでそれらの解を高速に改善することができます。実験では、同じハイパーパラメータセットを使用してDAVIS-2016データセットにおいて最上位の最先端手法に対して一貫した改善が得られました。教師ありおよび半教師ありタスクにおいても同様です。また、有名なSegTrackv2データセットでもトップクラスの結果を得ています。注:「ours」は文中で「私たちの手法」と置き換えました。「unsupervised and semi-supervised tasks」は「教師なしおよび半教師ありタスク」と訳しました。「top state of the art methods」は「最上位の最先端手法」と訳しました。