Formation d'images par des transformateurs efficaces en données d'entraînement et distillation par l'attention

Récemment, des réseaux neuronaux purement basés sur l'attention ont été montrés capables de traiter des tâches de compréhension d'images, telles que la classification d'images. Cependant, ces transformateurs visuels sont pré-entraînés avec des centaines de millions d'images en utilisant une infrastructure coûteuse, ce qui limite leur adoption.Dans cette étude, nous produisons un transformateur compétitif et exempt de convolution en ne l'entraînant que sur ImageNet. Nous les entraînons sur un seul ordinateur en moins de 3 jours. Notre transformateur de référence (86 millions de paramètres) atteint une précision top-1 de 83,1 % (évaluation à partir d'un seul découpage) sur ImageNet sans données externes.Plus important encore, nous introduisons une stratégie spécifique aux transformateurs basée sur le principe du maître-étudiant. Elle repose sur un jeton de distillation garantissant que l'étudiant apprend auprès du maître par le biais de l'attention. Nous démontrons l'intérêt de cette distillation basée sur des jetons, particulièrement lorsqu'un convnet est utilisé comme maître. Cela nous permet d'obtenir des résultats compétitifs avec les convnets tant pour ImageNet (où nous atteignons jusqu'à 85,2 % de précision) que lors du transfert à d'autres tâches. Nous partageons notre code et nos modèles.