DIANet : Réseau d'Attention Dense et Implicite

Les réseaux d'attention ont réussi à améliorer les performances dans divers problèmes de vision. Les travaux précédents mettaient l'accent sur la conception d'un nouveau module d'attention et leur intégration individuelle dans les réseaux. Notre article propose un cadre novateur et simple qui partage un module d'attention à travers différentes couches du réseau pour encourager l'intégration des informations couche par couche, et ce module partageant les paramètres est appelé unité Dense-and-Implicit-Attention (DIA). De nombreux choix de modules peuvent être utilisés dans l'unité DIA. Étant donné que le Long Short Term Memory (LSTM) a une capacité de capturer des dépendances à longue distance, nous nous concentrons sur le cas où l'unité DIA est un LSTM modifié (désigné comme DIA-LSTM). Des expériences sur des ensembles de données de référence montrent que l'unité DIA-LSTM est capable de mettre en évidence les relations entre les caractéristiques couche par couche et entraîne une amélioration significative de la précision de classification des images. Nous montrons également empiriquement que le DIA-LSTM possède une forte capacité régularisatrice pour stabiliser l'entraînement des réseaux profonds par des expériences réalisées sans connexions résiduelles ou normalisation par lots dans tout le réseau résiduel. Le code est disponible à l'adresse https://github.com/gbup-group/DIANet.