Command Palette
Search for a command to run...
Reconnaissance d'images à grande échelle à haute performance sans normalisation
Reconnaissance d'images à grande échelle à haute performance sans normalisation
Andrew Brock Soham De Samuel L. Smith Karen Simonyan
Résumé
La normalisation par lots (batch normalization) est un élément clé de la plupart des modèles de classification d’images, mais elle présente de nombreuses propriétés indésirables dues à sa dépendance à la taille du lot et aux interactions entre exemples. Bien que des travaux récents aient permis d’entraîner des ResNets profondes sans couches de normalisation, ces modèles n’atteignent pas la précision test des meilleurs réseaux normalisés par lots, et sont souvent instables pour des taux d’apprentissage élevés ou des augmentations de données fortes. Dans ce travail, nous proposons une technique adaptative de clipping du gradient qui surmonte ces instabilités, et concevons une nouvelle classe améliorée de ResNets sans normaliseur (Normalizer-Free ResNets). Nos modèles plus petits atteignent la précision test d’un EfficientNet-B7 sur ImageNet tout en étant jusqu’à 8,7 fois plus rapides à entraîner, tandis que nos modèles les plus grands atteignent une nouvelle meilleure précision top-1 de 86,5 %. En outre, les modèles sans normaliseur surpassent significativement leurs homologues normalisés par lots lors du fine-tuning sur ImageNet après un pré-entraînement à grande échelle sur un jeu de données de 300 millions d’images étiquetées, nos meilleurs modèles atteignant une précision de 89,2 %. Le code est disponible à l’adresse suivante : https://github.com/deepmind/deepmind-research/tree/master/nfnets