ResNeSt : Réseaux à attention par division

Il est bien établi que l’attention sur les featuremaps et les représentations multi-chemins jouent un rôle crucial dans la reconnaissance visuelle. Dans cet article, nous proposons une architecture modulaire qui applique une attention par canal sur différentes branches du réseau afin d’exploiter leur efficacité dans la capture des interactions croisées entre caractéristiques et l’apprentissage de représentations diversifiées. Notre conception donne lieu à un bloc de calcul simple et unifié, pouvant être paramétré à l’aide d’un nombre réduit de variables. Notre modèle, nommé ResNeSt, surpasser l’EfficientNet en termes de compromis entre précision et latence sur la classification d’images. En outre, ResNeSt a obtenu des résultats supérieurs en apprentissage transféré sur plusieurs benchmarks publics utilisés comme squelette, et a été adopté par les solutions gagnantes du défi COCO-LVIS. Le code source du système complet ainsi que les modèles pré-entraînés sont disponibles publiquement.