2ヶ月前

時間一貫性のあるハイブリッドメモリーを用いた参照ビデオオブジェクトセグメンテーション

Bo Miao; Mohammed Bennamoun; Yongsheng Gao; Mubarak Shah; Ajmal Mian
時間一貫性のあるハイブリッドメモリーを用いた参照ビデオオブジェクトセグメンテーション
要約

参照ビデオオブジェクトセグメンテーション(R-VOS)手法は、時間的な文脈の変動や視覚的に類似した他の物体の存在により、一貫した物体セグメンテーションを維持することが困難な課題に直面しています。本研究では、時間的なインスタンスの一貫性と参照セグメンテーションを明示的にモデル化するエンドツーエンドのR-VOSパラダイムを提案します。特に、新しいハイブリッドメモリーを導入し、堅牢な空間・時間マッチングと伝播のためのフレーム間協力を促進します。自動生成された高品質な参照マスクを持つフレームの特徴量が、多粒度関連に基づいて残りのフレームをセグメントするために伝播され、時間的一貫性のあるR-VOSを実現します。さらに、新しい評価指標であるマスク一貫性スコア(MCS)を提案し、ビデオセグメンテーションの時間的一貫性を評価します。広範囲にわたる実験結果から、当手法が時間的一貫性を大幅に向上させることで、人気のあるR-VOSベンチマークにおいてトップクラスの性能を達成していることが示されています。具体的には、Ref-YouTube-VOS(67.1%)およびRef-DAVIS17(65.6%)で最上位の成績となっています。コードは以下のURLから入手可能です: https://github.com/bo-miao/HTR.