2ヶ月前

モジュール型インタラクティブビデオオブジェクトセグメンテーション:インタラクションからマスクへの変換、伝播および差異認識融合

Cheng, Ho Kei ; Tai, Yu-Wing ; Tang, Chi-Keung
モジュール型インタラクティブビデオオブジェクトセグメンテーション:インタラクションからマスクへの変換、伝播および差異認識融合
要約

私たちはモジュール型インタラクティブVOS(MiVOS)フレームワークを提案します。このフレームワークは、インタラクションからマスクへの変換とマスクの伝播を分離することで、より高い汎化能力と優れた性能を実現します。交互に学習されたインタラクションモジュールは、ユーザの操作をオブジェクトマスクに変換し、その後、我々の伝播モジュールは新しいtop-$k$フィルタリング戦略を使用して空間時間メモリから一時的に伝播させます。ユーザの意図を効果的に反映するために、差異認識モジュールが提案され、各操作前後で適切にマスクを融合する方法を学習します。これにより、対象フレームとの位置合わせが行われます。DAVISデータセット上で異なる形式のユーザ操作(例えば、スケッチやクリック)について定性的および定量的な評価を行い、当手法が現在の最先端アルゴリズムを超える性能を持つことを示しました。さらに、少ないフレーム操作が必要であり、異なるタイプのユーザ操作に対する汎化能力も向上しています。未来の研究を促進するために、480万フレームのピクセル精度セグメンテーションを持つ大規模な合成VOSデータセットとソースコードを提供します。

モジュール型インタラクティブビデオオブジェクトセグメンテーション:インタラクションからマスクへの変換、伝播および差異認識融合 | 最新論文 | HyperAI超神経