HyperAIHyperAI
il y a 2 mois

Prédicteur Adaptatif Multi-sources pour la Segmentation d'Objets Vidéo en Zero-shot

Xiaoqi Zhao; Shijie Chang; Youwei Pang; Jiaxing Yang; Lihe Zhang; Huchuan Lu
Prédicteur Adaptatif Multi-sources pour la Segmentation d'Objets Vidéo en Zero-shot
Résumé

Les objets statiques et en mouvement sont fréquemment présents dans les vidéos de la vie réelle. La plupart des méthodes de segmentation d'objets vidéo se concentrent sur l'extraction et l'exploitation des indices de mouvement pour percevoir les objets en mouvement. Lorsqu'ils sont confrontés aux images d'objets statiques, les prédicteurs d'objets en mouvement peuvent générer des résultats erronés dus à des informations de mouvement incertaines, comme des cartes d'écoulement optique de faible qualité. De plus, différentes sources telles que le RGB, la profondeur, l'écoulement optique et la salience statique peuvent fournir des informations utiles sur les objets. Cependant, les approches existantes ne prennent en compte que le RGB ou le RGB et l'écoulement optique.Dans cet article, nous proposons un nouveau prédicteur adaptatif multi-sources pour la segmentation d'objets vidéo sans exemple préalable (ZVOS). Dans le prédicteur d'objets statiques, la source RGB est convertie simultanément en sources de profondeur et de salience statique. Dans le prédicteur d'objets en mouvement, nous introduisons une structure de fusion multi-sources. Premièrement, l'importance spatiale de chaque source est mise en évidence grâce au module d'attention spatiale interoceptive (ISAM). Deuxièmement, le module de renforcement du mouvement (MEM) est conçu pour générer une attention pure au mouvement du premier plan afin d'améliorer la représentation des caractéristiques statiques et en mouvement dans le décodeur. En outre, nous concevons un module de purification des caractéristiques (FPM) pour filtrer les caractéristiques incompatibles entre les sources.En utilisant l'ISAM, le MEM et le FPM, les caractéristiques multi-sources sont efficacement fusionnées. De plus, nous proposons un réseau de fusion adaptative des prédicteurs (APF) pour évaluer la qualité de la carte d'écoulement optique et fusionner les prédictions issues du prédicteur d'objets statiques et du prédicteur d'objets en mouvement afin d'éviter une trop grande dépendance aux résultats erronés causés par des cartes d'écoulement optique de faible qualité. Les expériences montrent que le modèle proposé surpasse les méthodes actuelles sur trois benchmarks ZVOS difficiles. Par ailleurs, le prédicteur d'objets statiques prévoit précisément une carte de profondeur et une carte de salience statique de haute qualité simultanément.

Prédicteur Adaptatif Multi-sources pour la Segmentation d'Objets Vidéo en Zero-shot | Articles de recherche récents | HyperAI