DAS : Une Attention Déformable pour Capturer les Informations Saliennes dans les CNNs

Les réseaux de neurones convolutifs (CNN) se distinguent par leur capacité à reconnaître efficacement les motifs spatiaux locaux. Pour de nombreuses tâches visuelles, telles que la reconnaissance d’objets ou la segmentation, des informations pertinentes sont également présentes au-delà des limites du noyau des CNN. Toutefois, les CNN peinent à capturer ces informations significatives en raison de leurs champs réceptifs restreints. L’attention auto-associative peut améliorer l’accès à l’information globale, mais elle entraîne une surcharge computationnelle importante. Nous proposons une méthode entièrement convolutive, rapide et simple, appelée DAS, qui permet de focaliser l’attention sur les informations pertinentes. Elle utilise des convolutions déformables pour localiser précisément les régions d’image pertinentes, et des convolutions séparables afin d’assurer une efficacité computationnelle élevée. DAS s’intègre facilement aux CNN existants et propage les informations pertinentes via un mécanisme de porte (gating). Contrairement à la complexité computationnelle O(n²) des attention de type transformer, DAS présente une complexité O(n). Nous affirmons que la capacité de DAS à accorder une attention accrue aux caractéristiques pertinentes conduit à une amélioration des performances lorsqu’elle est ajoutée à des CNN populaires pour la classification d’images et la détection d’objets. Par exemple, DAS améliore les résultats sur Stanford Dogs (4,47 %), ImageNet (1,91 %) et COCO AP (3,3 %), en utilisant comme base un modèle ResNet50. Ces performances surpassent celles d’autres mécanismes d’attention pour CNN, tout en consommant un nombre de FLOPs similaire ou inférieur. Le code source sera rendu public.