Classification d'ImageNet avec des réseaux de neurones convolutionnels profonds

Nous avons entraîné un grand réseau neuronal convolutif profond pour classer les 1,3 million d’images haute résolution du jeu de données de formation ImageNet LSVRC-2010 en 1 000 catégories différentes. Sur les données de test, nous avons obtenu des taux d’erreur de 39,7 % au top-1 et de 18,9 % au top-5, ce qui représente une amélioration notable par rapport aux résultats les plus avancés précédents. Le réseau neuronal, composé de 60 millions de paramètres et de 500 000 neurones, se structure autour de cinq couches convolutives, certaines suivies de couches de pooling maximal, ainsi que de deux couches entièrement connectées globalement, terminant par une fonction softmax à 1 000 voies. Pour accélérer l’entraînement, nous avons utilisé des neurones non saturants et une implémentation très efficace des réseaux convolutifs sur GPU. Pour réduire le surajustement (overfitting) dans les couches entièrement connectées, nous avons mis en œuvre une nouvelle méthode de régularisation qui s’est révélée extrêmement efficace.