2ヶ月前

多源融合とゼロショット動画オブジェクトセグメンテーションのための自動予測子選択

Xiaoqi Zhao; Youwei Pang; Jiaxing Yang; Lihe Zhang; Huchuan Lu
多源融合とゼロショット動画オブジェクトセグメンテーションのための自動予測子選択
要約

位置と外観はビデオオブジェクトセグメンテーションの主要な手がかりである。RGB、深度、光流、静的注目度などの多くの情報源から、オブジェクトに関する有用な情報を得ることができる。しかし、既存の手法ではRGBまたはRGBと光流のみが利用されている。本論文では、ゼロショットビデオオブジェクトセグメンテーション向けに新しいマルチソース融合ネットワークを提案する。内感空間注意モジュール(Interoceptive Spatial Attention Module: ISAM)の助けにより、各情報源の空間的重要性が強調される。さらに、特徴浄化モジュール(Feature Purification Module: FPM)を設計し、情報源間の非互換的な特徴をフィルタリングする。ISAMとFPMによって、マルチソース特徴が効果的に融合される。また、自動予測器選択ネットワーク(Automatic Predictor Selection Network: APS)を提案し、静的注目度予測器と動的オブジェクト予測器のどちらかの方が良い予測を選択することで、低品質な光流マップによる失敗結果への過度な依存を防ぐ。DAVIS$_{16}$, Youtube-Objects, FBMSという3つの挑戦的な公開ベンチマークでの広範な実験により、提案モデルが最先端技術に対して優れた性能を達成していることが示された。ソースコードは\textcolor{red}{\url{https://github.com/Xiaoqi-Zhao-DLUT/Multi-Source-APS-ZVOS}}で公開される予定である。

多源融合とゼロショット動画オブジェクトセグメンテーションのための自動予測子選択 | 最新論文 | HyperAI超神経