HyperAIHyperAI
il y a 17 jours

Lorsque les Vision Transformers surpassent les ResNets sans pré-entraînement ni augmentations de données puissantes

Xiangning Chen, Cho-Jui Hsieh, Boqing Gong
Lorsque les Vision Transformers surpassent les ResNets sans pré-entraînement ni augmentations de données puissantes
Résumé

Les Transformateurs d’Images (ViTs) et les MLPs reflètent une évolution plus large visant à remplacer les caractéristiques prédéfinies ou les biais inductifs par des architectures neurales généralistes. Les travaux existants renforcent ces modèles grâce à de grandes quantités de données, notamment par une pré-entraînement à grande échelle et/ou des augmentations de données répétées et puissantes, tout en signalant encore des problèmes liés à l’optimisation (par exemple, une sensibilité aux conditions initiales ou aux taux d’apprentissage). Dans ce papier, nous étudions les ViTs et les MLP-Mixers sous l’angle de la géométrie de la fonction de perte, dans le but d’améliorer leur efficacité en données pendant l’entraînement et leur capacité de généralisation à l’inference. La visualisation et l’analyse du Hessien révèlent des minima locaux extrêmement aigus chez les modèles convergés. En favorisant la régularité grâce à un nouvel optimiseur conscient de l’aspérité, nous améliorons de manière significative la précision et la robustesse des ViTs et des MLP-Mixers sur diverses tâches, couvrant l’apprentissage supervisé, l’apprentissage adversaire, l’apprentissage contrastif et le transfert (par exemple, une augmentation de +5,3 % et +11,0 % de précision top-1 sur ImageNet pour ViT-B/16 et Mixer-B/16 respectivement, avec une prétraitement simple inspiré de Inception). Nous montrons que cette amélioration de la régularité s’explique par une densité plus faible de neurones actifs dans les premières couches. Les modèles ainsi obtenus surpassent les ResNets de taille et débit similaires lorsqu’ils sont entraînés depuis le début sur ImageNet, sans recourir à un pré-entraînement à grande échelle ni à des augmentations de données puissantes. Les points de contrôle des modèles sont disponibles à l’adresse suivante : \url{https://github.com/google-research/vision_transformer}.