HyperAIHyperAI
il y a 2 mois

ML-Decoder : Tête de classification évolutrice et polyvalente

Ridnik, Tal ; Sharir, Gilad ; Ben-Cohen, Avi ; Ben-Baruch, Emanuel ; Noy, Asaf
ML-Decoder : Tête de classification évolutrice et polyvalente
Résumé

Dans cet article, nous présentons ML-Decoder, une nouvelle tête de classification basée sur l'attention. ML-Decoder prédit l'existence des étiquettes de classe par le biais de requêtes et permet une meilleure utilisation des données spatiales par rapport au regroupement moyen global. En redessinant l'architecture du décodeur et en utilisant un nouveau schéma de décodage par groupe, ML-Decoder est très efficace et peut s'adapter à plusieurs milliers de classes. Comparé à l'utilisation d'un backbone plus grand, ML-Decoder offre constamment un meilleur compromis entre la vitesse et la précision. De plus, ML-Decoder est polyvalent : il peut être utilisé comme remplacement direct pour diverses têtes de classification et généraliser aux classes inconnues lorsqu'il est opéré avec des requêtes lexicales. De nouvelles augmentations de requêtes améliorent encore davantage sa capacité de généralisation. En utilisant ML-Decoder, nous obtenons des résultats d'avant-garde sur plusieurs tâches de classification : sur MS-COCO multi-labels, nous atteignons 91,4 % mAP ; sur NUS-WIDE zero-shot, nous atteignons 31,1 % ZSL mAP ; et sur ImageNet mono-label, nous obtenons avec un backbone ResNet50 standard un nouveau score maximal de 80,7 % sans données supplémentaires ou distillation. Le code public est disponible à l'adresse suivante : https://github.com/Alibaba-MIIL/ML_Decoder