HyperAIHyperAI
il y a 2 mois

Stratégie de Duplex Complet pour la Segmentation d'Objets Vidéo

Ge-Peng Ji; Deng-Ping Fan; Keren Fu; Zhe Wu; Jianbing Shen; Ling Shao
Stratégie de Duplex Complet pour la Segmentation d'Objets Vidéo
Résumé

Les approches précédentes de segmentation d'objets dans les vidéos se concentrent principalement sur l'utilisation de solutions simples entre l'apparence et le mouvement, limitant ainsi l'efficacité de la collaboration des caractéristiques au sein et entre ces deux indices. Dans ce travail, nous étudions un réseau à stratégie duplex complet (FSNet) novateur et efficace pour résoudre ce problème, en considérant un meilleur schéma de contrainte mutuelle entre le mouvement et l'apparence lors de l'exploitation des caractéristiques inter-modales issues des étapes de fusion et de décodage. Plus précisément, nous introduisons le module d'attention croisée relationnelle (RCAM) pour réaliser une propagation bidirectionnelle des messages à travers les sous-espaces d'embedding. Pour améliorer la robustesse du modèle et mettre à jour les caractéristiques incohérentes provenant des embeddings spatio-temporels, nous utilisons le module de purification bidirectionnel (BPM) après le RCAM. De nombreuses expériences menées sur cinq benchmarks populaires montrent que notre FSNet est robuste face à divers scénarios difficiles (par exemple, flou de mouvement, occultation) et obtient des performances favorables par rapport aux méthodes existantes les plus avancées, tant dans la tâche de segmentation d'objets dans les vidéos que dans celle de détection d'objets saillants dans les vidéos. Le projet est disponible au public à l'adresse suivante : https://dpfan.net/FSNet.

Stratégie de Duplex Complet pour la Segmentation d'Objets Vidéo | Articles de recherche récents | HyperAI