2ヶ月前
動画における運動誘導型自己監督物体発見
Shuangrui Ding; Weidi Xie; Yabo Chen; Rui Qian; Xiaopeng Zhang; Hongkai Xiong; Qi Tian

要約
本論文では、ビデオにおける教師なし物体発見の課題について考察します。従来の研究では、光学フローを処理して物体をセグメンテーションする手法が有望な結果を示しています。しかし、フローを入力として使用すると2つの問題が生じます。まず、物体が静止しているか部分的に遮蔽されている場合、十分な手がかりを得ることができません。次に、テクスチャ情報が欠落しているため、フローのみの入力から時間的な一貫性を確立することが困難です。これらの制約に対処するために、連続するRGBフレームを直接処理するモデルを提案し、任意のフレーム対間の光学フローをレイヤー表現を使用して推定します。ここで、不透明度チャンネルはセグメンテーションとして扱われます。さらに、物体の一貫性を強制するために、異なる速度で動くランダムにペアリングされたフレームから推定されるマスクに対して時間的一貫性損失を適用します。これにより、物体が現在動いていなくてもモデルが物体をセグメンテーションすることを促進します。実験結果では、3つの公開ビデオセグメンテーションデータセット(DAVIS2016, SegTrackv2, および FBMS-59)において既存の最先端手法よりも優れた性能を達成したことを示しています。また、光学フローの計算という入力のオーバーヘッドを回避することで計算効率も高いことを確認しました。