ゼロショット動画オブジェクトセグメンテーションのための適応的マルチソース予測器

実際のビデオでは、静止物体と動く物体がしばしば登場します。ほとんどのビデオオブジェクトセグメンテーション手法は、動く物体を認識するために運動情報を抽出および活用することに焦点を当てています。しかし、静止物体のフレームに対しては、不確かな運動情報(低品質な光学フロー地図など)により、動く物体予測器が失敗する結果を生むことがあります。さらに、RGB、深度、光学フロー、静止サリエンシーなどの異なる情報源から有用な情報を得ることができます。しかし、既存のアプローチはRGBのみまたはRGBと光学フローのみを考慮しています。本論文では、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)向けの新しい適応的なマルチソース予測器を提案します。静止物体予測器では、RGBソースが同時に深度ソースと静止サリエンシーソースに変換されます。動く物体予測器では、マルチソース融合構造を提案しています。まず、内感空間注意モジュール(Interoceptive Spatial Attention Module: ISAM)の助けを借りて各ソースの空間的重要性が強調されます。次に、純粋な前景運動注意を生成し、デコーダーでの静止および動く特徴表現を改善するための運動強化モジュール(Motion-Enhanced Module: MEM)が設計されています。さらに、ソース間の互換性がない特徴をフィルタリングするための特徴浄化モジュール(Feature Purification Module: FPM)も設計されています。ISAM, MEM, FPMを使用することで、マルチソース特徴が効果的に融合されます。また、適応的な予測器融合ネットワーク(Adaptive Predictor Fusion Network: APF)を提案し、光学フロー地図の品質評価を行い、静止物体予測器と動く物体予測器からの予測結果を融合します。これにより低品質な光学フロー地図による失敗した結果への過度な依存を防ぎます。実験結果は、提案されたモデルが3つの挑戦的なZVOSベンチマークで最先端の手法を超えることを示しています。また、静止物体予測器は高品質な深度地図と静止サリエンシー地図を同時に正確に予測することが確認されました。