8ヶ月前

概要

本論文では、初期オブジェクトマスクが提供されるビデオオブジェクトセグメンテーション問題を解決するための微分可能なマスクマッチングネットワーク（DMM-Net）を提案します。Mask R-CNNのバックボーンに依存して、フレームごとにマスク候補を抽出し、ある時間ステップでのオブジェクトテンプレートと候補との間のマッチングを線形割当問題として定式化します。ここで、コスト行列はCNNによって予測されます。我々は、投影勾配降下法アルゴリズムを展開することで微分可能なマッチング層を提案します。この投影ではDykstraのアルゴリズムを利用しています。軽微な条件のもとで、このマッチングが最適解に収束することを証明しました。実際には、推論時にハンガリアンアルゴリズムと同様の性能を示します。さらに、コスト行列の学習のために逆伝播を行うことができます。マッチング後、適合度向上ヘッドを使用して一致したマスクの品質を改善します。我々のDMM-Netは最大規模のビデオオブジェクトセグメンテーションデータセットYouTube-VOSで競争力のある結果を達成しています。DAVIS 2017においては、最初のフレームでのオンライン学習なしで最高の性能を達成しています。一切のファインチューニングを行わずに、SegTrack v2データセットでも最先端手法と同等の性能を発揮します。最後に、我々のマッチング層は非常に単純な実装であり、PyTorchコード（50行未満）を補足資料に添付しています。コードはhttps://github.com/ZENGXH/DMM_Net から公開されています。

ソースPDF