Réseaux Neuraux Non-locaux

Les opérations de convolution et de récurrence sont des éléments de base qui traitent un voisinage local à la fois. Dans cet article, nous présentons les opérations non-locales comme une famille générique d'éléments de base pour capturer des dépendances à longue portée. Inspirées par la méthode classique des moyennes non-locales en vision par ordinateur, nos opérations non-locales calculent la réponse en une position comme une somme pondérée des caractéristiques de toutes les positions. Ce bloc peut être intégré dans de nombreuses architectures de vision par ordinateur. Pour la tâche de classification vidéo, même sans aucune sophistication supplémentaire, nos modèles non-locaux peuvent rivaliser ou surpasser les gagnants actuels des compétitions sur les jeux de données Kinetics et Charades. En reconnaissance d'images statiques, nos modèles non-locaux améliorent la détection/segmentation d'objets et l'estimation de poses sur l'ensemble des tâches COCO. Le code est disponible à l'adresse https://github.com/facebookresearch/video-nonlocal-net .