HyperAIHyperAI
il y a 12 jours

MATNet : Réseau de transition attentif au mouvement pour la segmentation d'objets vidéo sans apprentissage préalable

{Ran; Shen, Shunzhou; Tao, Jianwu; Wang, Tianfei; Li, Zhou, Jianbing}
Résumé

Dans cet article, nous présentons un nouveau réseau neuronal d’apprentissage end-to-end, appelé MATNet, dédié à la segmentation d’objets vidéo en zéro-shot (ZVOS). Inspiré du comportement de l’attention visuelle humaine, MATNet utilise les indices de mouvement comme signal bottom-up pour guider la perception de l’apparence des objets. Pour réaliser cela, nous proposons un bloc d’attention asymétrique, nommé Transition Attentive au Mouvement (MAT), intégré dans un réseau encodeur à deux flux. Ce bloc permet d’abord d’identifier les régions en mouvement, puis d’orienter l’apprentissage de l’apparence afin de capturer l’étendue complète des objets. En intégrant plusieurs MATs dans différentes couches de convolution, notre encodeur devient profondément imbriqué, permettant des interactions hiérarchiques étroites entre l’apparence des objets et le mouvement. Ce design inspiré de la biologie s’avère nettement supérieur aux architectures classiques à deux flux, qui traitent indépendamment le mouvement et l’apparence dans des flux séparés, et qui souffrent souvent d’un surajustement sévère à l’apparence des objets. En outre, nous introduisons un réseau pont pour moduler les caractéristiques spatio-temporelles multi-échelles en représentations plus compactes, discriminatives et sensibles à l’échelle, qui sont ensuite transmises à un décodeur sensible aux contours afin de produire des segmentation précises aux bords nets. Nous menons des expériences quantitatives et qualitatives approfondies sur quatre défis publics majeurs : DAVIS16, DAVIS17, FBMS et YouTube-Objects. Les résultats montrent que notre méthode atteint des performances remarquables par rapport aux méthodes actuelles de l’état de l’art en ZVOS. Pour démontrer davantage la capacité de généralisation de notre cadre d’apprentissage spatio-temporel, nous étendons MATNet à une autre tâche pertinente : la prédiction de l’attention visuelle dynamique (DVAP). Les expériences menées sur deux jeux de données populaires (Hollywood-2 et UCF-Sports) confirment également l’efficacité supérieure de notre modèle.

MATNet : Réseau de transition attentif au mouvement pour la segmentation d'objets vidéo sans apprentissage préalable | Articles de recherche récents | HyperAI