アンカード・ディフュージョンによる教師なし動画オブジェクトセグメンテーション

教師なし動画オブジェクトセグメンテーションは、従来、再帰型ニューラルネットワーク(RNN)や光流(optical flow)に基づく手法によって主に扱われてきました。これらのアプローチは構造的に複雑である一方で、短期間の時系列依存性に偏りがちであり、誤差が時間とともに蓄積され、結果として「ドリフト(漂移)」を引き起こす傾向があります。さらに、単純な(静的)画像セグメンテーションモデルのみでも、これらの手法と競合する性能を示すことがあり、これは時系列依存性のモデリング方法自体を再考すべきであることを示唆しています。このような観察を受けて、本論文では、長期的な時系列依存性を効果的にモデル化するシンプルな戦略を検討します。文献[70]における非局所演算子(non-local operators)のアイデアをヒントに、参照フレーム(「アンカー」フレーム)と現在のフレームのピクセル埋め込み間において、密な対応関係を構築する手法を提案します。これにより、中間フレームに依存することなく、任意の長さの距離にわたるペアワイズ依存性を学習することが可能になります。オンラインでの教師信号を用いない状態でも、本手法は背景を効果的に抑制し、困難なシナリオにおいても正確に前景オブジェクトをセグメント化でき、時間経過に伴う性能の変動を抑えることができます。DAVIS-2016の教師なし手法ランキングにおいて、平均IoUが81.7%を達成し、首位を獲得しました。また、最先端のオンライン半教師ありアプローチに対しても競争力を持つ結果を示しています。さらに、FBMSデータセットおよびViSal動画サリエンシー(video saliency)データセットにおいても本手法を評価し、最先端の手法と同等の性能を達成しました。