HyperAIHyperAI
il y a 2 mois

Fusion Multi-Source et Sélection Automatique de Prédicteurs pour la Segmentation d'Objets Vidéo en Zero-Shot

Xiaoqi Zhao; Youwei Pang; Jiaxing Yang; Lihe Zhang; Huchuan Lu
Fusion Multi-Source et Sélection Automatique de Prédicteurs pour la Segmentation d'Objets Vidéo en Zero-Shot
Résumé

La localisation et l'apparence sont les indices clés pour la segmentation d'objets vidéo. De nombreuses sources, telles que les images RGB, la profondeur, le flux optique et la salience statique, peuvent fournir des informations utiles sur les objets. Cependant, les approches existantes ne tirent parti que des images RGB ou des images RGB et du flux optique. Dans cet article, nous proposons un nouveau réseau de fusion multi-sources pour la segmentation d'objets vidéo en zero-shot. Avec l'aide du module d'attention spatiale interoceptive (ISAM), l'importance spatiale de chaque source est mise en évidence. De plus, nous avons conçu un module de purification des caractéristiques (FPM) pour filtrer les caractéristiques incompatibles entre les sources. Grâce à l'ISAM et au FPM, les caractéristiques multi-sources sont efficacement fusionnées. En outre, nous avons développé un réseau de sélection automatique des prédicteurs (APS) pour choisir la meilleure prédiction entre le prédicteur de salience statique et le prédicteur d'objets mobiles afin d'éviter une dépendance excessive aux résultats erronés causés par des cartes de flux optique de faible qualité. Des expériences étendues sur trois benchmarks publics difficiles (à savoir DAVIS$_{16}$, Youtube-Objects et FBMS) montrent que le modèle proposé obtient des performances convaincantes face aux méthodes de pointe actuelles. Le code source sera rendu publiquement disponible sur \textcolor{red}{\url{https://github.com/Xiaoqi-Zhao-DLUT/Multi-Source-APS-ZVOS}}.

Fusion Multi-Source et Sélection Automatique de Prédicteurs pour la Segmentation d'Objets Vidéo en Zero-Shot | Articles de recherche récents | HyperAI