Transformations Résiduelles Agrégées pour les Réseaux Neuronaux Profonds

Nous présentons une architecture de réseau simple et hautement modulaire pour la classification d'images. Notre réseau est construit en répétant un bloc de base qui agrège un ensemble de transformations ayant la même topologie. Notre conception simple aboutit à une architecture homogène à plusieurs branches, ne comportant que quelques hyperparamètres à définir. Cette stratégie révèle une nouvelle dimension, que nous appelons « cardinalité » (la taille de l'ensemble de transformations), comme un facteur essentiel en plus des dimensions de profondeur et de largeur. Sur le jeu de données ImageNet-1K, nous montrons empiriquement que même sous la condition restrictive de maintenir la complexité, l'augmentation de la cardinalité permet d'améliorer la précision de classification. De plus, augmenter la cardinalité est plus efficace que d'aller plus profond ou plus large lorsque nous augmentons la capacité. Nos modèles, nommés ResNeXt, sont les fondements de notre participation à la tâche de classification ILSVRC 2016, où nous avons obtenu la deuxième place. Nous avons également examiné ResNeXt sur un ensemble ImageNet-5K et sur l'ensemble COCO pour la détection d'objets, obtenant des résultats supérieurs à ceux de son homologue ResNet. Le code et les modèles sont disponibles en ligne au public.Note: - "ImageNet-1K" and "ImageNet-5K" are kept in their original form as they are specific dataset names.- "ILSVRC" (ImageNet Large Scale Visual Recognition Challenge) is also kept in its original form.- "COCO" (Common Objects in Context) is another specific dataset name and is therefore not translated.- "ResNeXt" and "ResNet" are model names and are kept unchanged.