HyperAIHyperAI
il y a 11 jours

Réseau d'interaction hiérarchique pour la segmentation d'objets vidéo à partir d'expressions référentielles

{Philip Torr, Hengshuang Zhao, Luca Bertinetto, Yansong Tang, Zhao Yang}
Réseau d'interaction hiérarchique pour la segmentation d'objets vidéo à partir d'expressions référentielles
Résumé

Dans cet article, nous étudions le problème de la segmentation d’objets vidéo à partir d’expressions de référence (VOSRE). Les méthodes conventionnelles effectuent généralement une fusion multi-modale basée sur des caractéristiques linguistiques et des caractéristiques visuelles extraites à partir de la couche supérieure du encodeur visuel, ce qui limite la capacité de ces modèles à représenter les entrées multi-modales à différents niveaux de granularité sémantique et spatiale. Pour résoudre ce problème, nous proposons un réseau hiérarchique d’interaction end-to-end (HINet) pour le problème de VOSRE. Notre modèle exploite la pyramide de caractéristiques produite par l’encodeur visuel afin de générer plusieurs niveaux de caractéristiques multi-modales. Cela permet une représentation plus flexible de divers concepts linguistiques (par exemple, attributs et catégories d’objets) à différents niveaux des caractéristiques multi-modales. En outre, nous extrayons des signaux d’objets en mouvement à partir d’un flux optique, et nous les utilisons comme indices complémentaires pour mettre en évidence l’objet référencé et supprimer le fond grâce à un mécanisme de portail de mouvement. Contrairement aux méthodes antérieures, cette stratégie permet à notre modèle de produire des prédictions en temps réel sans nécessiter l’entrée de toute la vidéo. Malgré sa simplicité, le HINet proposé dépasse l’état de l’art précédent sur les jeux de données DAVIS-16, DAVIS-17 et J-HMDB pour la tâche de VOSRE, démontrant ainsi son efficacité et sa généralité.

Réseau d'interaction hiérarchique pour la segmentation d'objets vidéo à partir d'expressions référentielles | Articles de recherche récents | HyperAI