Réseau de filtrage dynamique sensible au contexte pour la détection des objets saillants dans les vidéos

La capacité à capturer les dynamiques entre cadres a été essentielle au développement de la détection des objets saillants dans les vidéos (VSOD). Bien que de nombreuses recherches aient remporté un grand succès dans ce domaine, une compréhension plus approfondie de sa nature dynamique s'impose. Dans ce travail, nous nous posons les questions suivantes : comment un modèle peut-il s'adapter aux variations dynamiques tout en percevant des différences fines dans l'environnement réel ? Comment les dynamiques temporelles peuvent-elles être efficacement intégrées dans les informations spatiales au fil du temps ? Pour y parvenir, nous proposons un réseau de filtrage sensible au contexte dynamique (DCFNet), doté d'un module de filtrage sensible au contexte dynamique (DCFM) et d'une stratégie efficace de fusion dynamique bidirectionnelle. Le DCFM proposé apporte une nouvelle perspective sur la génération de filtres dynamiques en extrayant des affinités liées à la localisation entre cadres consécutifs. Notre stratégie de fusion dynamique bidirectionnelle favorise l'interaction entre informations spatiales et temporelles de manière dynamique. Les résultats expérimentaux démontrent que notre méthode atteint des performances de pointe sur la plupart des jeux de données VSOD tout en garantissant une vitesse en temps réel de 28 fps. Le code source est disponible publiquement à l’adresse suivante : https://github.com/OIPLab-DUT/DCFNet.