Réseau à Multi-Attention pour la segmentation d'objets référentiels dans des vidéos compressées

La segmentation d'objets dans des vidéos par référence linguistique vise à segmenter l'objet mentionné par une expression linguistique donnée. Les travaux existants nécessitent généralement de décompresser le flux vidéo compressé en images RGB avant d'effectuer la segmentation, ce qui augmente considérablement les besoins en calcul et en stockage, ralentissant ainsi l'inférence. Ce goulot d'étranglement peut entraver l'application de ces méthodes dans des scénarios réels à ressources informatiques limitées, tels que les véhicules autonomes ou les drones. Pour atténuer ce problème, nous explorons dans cet article la tâche de segmentation d'objets référentiels directement sur des vidéos compressées, c’est-à-dire sur le flux de données vidéo original. En plus de la difficulté inhérente à la segmentation d'objets dans des vidéos par référence, l’extraction de représentations discriminantes à partir de vidéos compressées s’avère également particulièrement délicate. Pour surmonter ce défi, nous proposons un réseau à multi-attention composé d’un module à double chemin et double attention, ainsi que d’un module Transformer cross-modale basé sur la requête. Plus précisément, le module à double chemin et double attention est conçu pour extraire des représentations efficaces à partir des données compressées dans trois modalités : images I, vecteurs de mouvement et résidus. Le module Transformer cross-modale basé sur la requête modélise d’abord la corrélation entre les modalités linguistique et visuelle, puis utilise les caractéristiques fusionnées multi-modales pour guider les requêtes d’objets afin de générer un noyau dynamique sensible au contenu, et prédire les masques de segmentation finaux. Contrairement aux méthodes précédentes, nous proposons d’apprendre un seul noyau, éliminant ainsi la procédure postérieure complexe de correspondance des masques adoptée par les approches existantes. Des résultats expérimentaux abondants et prometteurs sur trois jeux de données exigeants démontrent l’efficacité de notre méthode par rapport à plusieurs méthodes de pointe conçues pour traiter des données RGB. Le code source est disponible à l’adresse suivante : https://github.com/DexiangHong/MANet.