HyperAIHyperAI
il y a 11 jours

Pyramide Dilatée ConvLSTM Plus Approfondie pour la Détection des Objets Saliants dans les Vidéos

{Kin-Man Lam, Jianbing Shen, Wenguan Wang, Sanyuan Zhao, Hongmei Song}
Pyramide Dilatée ConvLSTM Plus Approfondie pour la Détection des Objets Saliants dans les Vidéos
Résumé

Ce papier propose un modèle rapide de détection des objets saillants dans les vidéos, fondé sur une nouvelle architecture de réseau récurrent nommée ConvLSTM bidirectionnel à dilatation pyramidale (PDB-ConvLSTM). Un module de convolution pyramidale dilatée (PDC) est d’abord conçu pour extraire simultanément des caractéristiques spatiales à plusieurs échelles. Ces caractéristiques spatiales sont ensuite concaténées et alimentées dans une version étendue du ConvLSTM bidirectionnel plus profond (DB-ConvLSTM), afin d’apprendre des informations spatio-temporelles. Les unités ConvLSTM avant et arrière sont disposées sur deux couches et connectées de manière en cascade, favorisant ainsi l’échange d’informations entre les deux flux bidirectionnels et permettant une extraction de caractéristiques plus approfondie. Nous améliorons davantage le DB-ConvLSTM en lui intégrant une structure similaire au PDC, en utilisant plusieurs ConvLSTM bidirectionnels dilatés pour extraire des informations spatio-temporelles à plusieurs échelles. Les résultats expérimentaux étendus montrent que notre méthode surpasse de manière significative les modèles précédents de saliency vidéo, tout en atteignant une vitesse en temps réel de 20 fps sur une seule GPU. À titre d’exemple d’application, dans le cadre de la segmentation d’objets vidéo non supervisée, le modèle proposé (avec un post-traitement basé sur un CRF) atteint des résultats de pointe sur deux benchmarks populaires, démontrant ainsi de manière convaincante sa performance supérieure et son haut degré de pertinence pratique.

Pyramide Dilatée ConvLSTM Plus Approfondie pour la Détection des Objets Saliants dans les Vidéos | Articles de recherche récents | HyperAI