Réseaux de neurones convolutifs très profonds pour la reconnaissance d'images à grande échelle

Dans cette étude, nous examinons l'effet de la profondeur du réseau convolutif sur sa précision dans le cadre de la reconnaissance d'images à grande échelle. Notre contribution principale est une évaluation approfondie de réseaux de profondeur croissante en utilisant une architecture avec des filtres de convolution très petits (3x3), qui montre qu'une amélioration significative par rapport aux configurations antérieures peut être obtenue en portant la profondeur à 16-19 couches de poids. Ces résultats ont servi de base à notre soumission au défi ImageNet 2014, où notre équipe a obtenu les premières et deuxièmes places respectivement dans les catégories de localisation et de classification. Nous montrons également que nos représentations se généralisent bien à d'autres jeux de données, où elles atteignent des résultats d'état de l'art. Nous avons rendu publiquement disponibles nos deux modèles ConvNet les mieux performants afin de faciliter des recherches ultérieures sur l'utilisation de représentations visuelles profondes en vision par ordinateur.