Correction de l'écart de résolution entre l'entraînement et le test

L'augmentation de données est essentielle à l'entraînement des réseaux de neurones pour la classification d'images. Cet article montre d'abord que les augmentations existantes induisent une disparité significative entre la taille typique des objets observés par le classifieur lors de l'entraînement et celle observée lors du test. Nous validons expérimentalement que, pour une résolution cible de test, l'utilisation d'une résolution d'entraînement inférieure offre une meilleure classification lors du test.Nous proposons ensuite une stratégie simple mais efficace et efficiente pour optimiser les performances du classifieur lorsque les résolutions d'entraînement et de test diffèrent. Cette stratégie ne nécessite qu'un affinage (fine-tuning) computationnellement peu coûteux du réseau à la résolution de test. Cela permet d'entraîner des classifieurs puissants en utilisant des images d'entraînement de petite taille. Par exemple, nous obtenons une précision top-1 de 77,1% sur ImageNet avec un ResNet-50 entraîné sur des images 128x128, et 79,8% avec un ResNet-50 entraîné sur des images 224x224. De plus, si nous utilisons des données d'entraînement supplémentaires, nous obtenons 82,5% avec un ResNet-50 entraîné sur des images 224x224.Inversement, lors de l'entraînement d'un ResNeXt-101 32x48d pré-entraîné de manière faiblement supervisée sur 940 millions d'images publiques à une résolution de 224x224 et en optimisant davantage pour une résolution de test de 320x320, nous obtenons une précision top-1 de test de 86,4% (top-5 : 98,0%) (avec un seul découpage). À notre connaissance, il s'agit de la meilleure précision top-1 et top-5 en découpant une seule fois sur ImageNet à ce jour.