Attention résiduelle : une méthode simple mais efficace pour la reconnaissance multi-étiquettes

La reconnaissance d'images multi-étiquettes est une tâche de vision par ordinateur à usage pratique qui présente des défis. Les progrès dans ce domaine sont souvent caractérisés par des méthodes complexes, des calculs lourds et un manque d'explications intuitives. Pour capturer efficacement les différentes régions spatiales occupées par des objets de catégories différentes, nous proposons un module extrêmement simple, appelé attention résiduelle spécifique aux classes (CSRA). Le CSRA génère des caractéristiques spécifiques à chaque classe pour toutes les catégories en proposant un score d'attention spatial simple, puis le combine avec la caractéristique de pooling moyen non spécifique aux classes. Le CSRA obtient des résultats de pointe en reconnaissance multi-étiquettes tout en étant beaucoup plus simple que les autres méthodes. De plus, avec seulement 4 lignes de code, le CSRA améliore de manière constante de nombreux modèles préentraînés et jeux de données diversifiés sans nécessiter d'entraînement supplémentaire. Le CSRA est à la fois facile à implémenter et léger en termes de calculs, offrant également des explications et des visualisations intuitives.