ResNet revient : une procédure d'entraînement améliorée dans timm

Les réseaux résiduels influents conçus par He et al. restent l’architecture de référence dans de nombreuses publications scientifiques. Ils servent généralement d’architecture par défaut dans les études, ou comme référence de base lorsqu’une nouvelle architecture est proposée. Toutefois, des progrès significatifs ont été réalisés depuis la mise en œuvre de l’architecture ResNet en 2015 en ce qui concerne les meilleures pratiques d’entraînement des réseaux de neurones. De nouvelles stratégies d’optimisation et d’augmentation de données ont considérablement amélioré l’efficacité des procédures d’entraînement. Dans cet article, nous réévaluons les performances du ResNet-50 « vanilla » lorsqu’il est entraîné selon une procédure intégrant ces avancées. Nous mettons à disposition des configurations d’entraînement compétitives et des modèles pré-entraînés dans la bibliothèque open source timm, dans l’espoir qu’ils servent de références plus pertinentes pour les travaux futurs. Par exemple, avec notre configuration d’entraînement plus exigeante, un ResNet-50 « vanilla » atteint une précision top-1 de 80,4 % à une résolution de 224×224 sur ImageNet-val, sans recourir à des données supplémentaires ni à une distillation. Nous rapportons également les performances obtenues avec des modèles populaires en utilisant notre procédure d’entraînement.