il y a 17 jours

Augmentation des Vision Transformers

Xiaohua Zhai, Alexander Kolesnikov, Neil Houlsby, Lucas Beyer

Résumé

Les réseaux neuronaux basés sur l’attention, tels que le Vision Transformer (ViT), ont récemment atteint des résultats de pointe sur de nombreuses benchmarks en vision par ordinateur. L’échelle est un facteur essentiel pour obtenir de très bons résultats, aussi la compréhension des propriétés d’échelle d’un modèle constitue-t-elle une clé pour concevoir efficacement les générations futures. Bien que les lois régissant l’échelle des modèles linguistiques Transformer aient été étudiées, le comportement d’échelle des Vision Transformers reste inconnu. Pour y remédier, nous avons étudié l’échelle des modèles ViT ainsi que celle des données, en les faisant varier à la fois à la hausse et à la baisse, et avons caractérisé les relations entre le taux d’erreur, la quantité de données et la puissance de calcul. Au cours de cette étude, nous avons affiné l’architecture et la phase d’entraînement du ViT, réduisant ainsi la consommation de mémoire tout en améliorant la précision des modèles obtenus. En conséquence, nous avons réussi à entraîner un modèle ViT de deux milliards de paramètres, atteignant une nouvelle performance record sur ImageNet avec une précision top-1 de 90,45 %. Ce modèle se distingue également par de très bonnes performances en transfert à très peu d’exemples, par exemple atteignant 84,86 % de précision top-1 sur ImageNet avec seulement 10 exemples par classe.