Reseaux de modulation focalisée

Nous proposons les réseaux de modulation focale (FocalNets, pour abréger), dans lesquels l'attention auto-associative (SA) est entièrement remplacée par un mécanisme de modulation focale pour modéliser les interactions entre tokens en vision par ordinateur. La modulation focale comporte trois composants : (i) une contextualisation hiérarchique, mise en œuvre à l’aide d’une pile de couches de convolution depthwise, pour encoder les contextes visuels à portée courte à longue distance ; (ii) une agrégation pilotée par un gate, permettant de sélectionner de manière adaptative les contextes à associer à chaque token requête en fonction de son contenu ; et (iii) une modulation élément par élément ou une transformation affine pour injecter le contexte agrégé dans le token de requête. Des expérimentations étendues montrent que les FocalNets surpassent les meilleurs modèles basés sur l’attention auto-associative (par exemple, Swin et Focal Transformers) avec des coûts computationnels similaires sur des tâches telles que la classification d’images, la détection d’objets et la segmentation. Plus précisément, les FocalNets de taille « tiny » et « base » atteignent respectivement 82,3 % et 83,9 % de précision top-1 sur ImageNet-1K. Après pré-entraînement sur ImageNet-22K à une résolution de 224, ils atteignent 86,5 % et 87,3 % de précision top-1 lors d’un fine-tuning respectivement à 224 et 384. Lorsqu’ils sont transférés à des tâches en aval, les FocalNets montrent une supériorité claire : pour la détection d’objets avec Mask R-CNN, le FocalNet base entraîné avec une stratégie 1× dépasse de 2,1 points le modèle Swin correspondant (49,0 contre 48,5), et dépasser déjà le Swin entraîné avec une stratégie 3× (49,0 contre 48,5). Pour la segmentation sémantique avec UPerNet, le FocalNet base en mode single-scale dépasse Swin de 2,4 points, et bat Swin en mode multi-échelle (50,5 contre 49,7). En utilisant un FocalNet de grande taille combiné à Mask2former, nous obtenons 58,5 mIoU pour la segmentation sémantique sur ADE20K, et 57,9 PQ pour la segmentation panoptique sur COCO. Enfin, en combinant un FocalNet énorme avec DINO, nous atteignons 64,3 et 64,4 mAP sur les ensembles minival et test-dev de COCO respectivement, établissant un nouveau record d’état de l’art (SoTA) sur des modèles basés sur l’attention beaucoup plus volumineux, tels que Swinv2-G et BEIT-3. Le code et les points de contrôle sont disponibles à l’adresse suivante : https://github.com/microsoft/FocalNet.