Apprentissage d'architectures transférables pour la reconnaissance d'images à grande échelle

Le développement de modèles de classification d'images basés sur des réseaux neuronaux nécessite souvent une ingénierie architecturale importante. Dans cet article, nous étudions une méthode permettant d'apprendre directement les architectures de modèles sur le jeu de données d'intérêt. Étant donné que cette approche est coûteuse lorsque le jeu de données est volumineux, nous proposons de rechercher un bloc architectural sur un petit jeu de données, puis de transférer ce bloc à un plus grand jeu de données. La contribution principale de ce travail est la conception d'un nouvel espace de recherche (l'espace de recherche « NASNet ») qui permet la transférabilité. Dans nos expériences, nous recherchons la meilleure couche convolutive (ou « cellule ») sur le jeu de données CIFAR-10, puis appliquons cette cellule au jeu de données ImageNet en empilant davantage de copies de cette cellule, chacune avec ses propres paramètres, pour concevoir une architecture convolutive nommée « architecture NASNet ». Nous introduisons également une nouvelle technique de régularisation appelée ScheduledDropPath qui améliore considérablement la généralisation dans les modèles NASNet. Sur CIFAR-10 lui-même, NASNet atteint un taux d'erreur de 2,4 %, ce qui constitue l'état actuel de l'art. Sur ImageNet, NASNet atteint parmi les travaux publiés une précision record de 82,7 % pour le top-1 et 96,2 % pour le top-5. Notre modèle est meilleur de 1,2 % en précision top-1 que les meilleures architectures inventées par l'homme tout en ayant 9 milliards d'opérations en moins (FLOPS), soit une réduction de 28 % des exigences computationnelles par rapport au modèle précédent considéré comme l'état actuel de l'art. Lorsqu'évalué à différents niveaux d'exigences computationnelles, les précisions des NASNets dépassent celles des modèles conçus par l'homme et considérés comme l'état actuel de l'art. Par exemple, une version réduite du NASNet atteint également une précision top-1 de 74 %, soit 3,1 % mieux que les modèles équivalents et considérés comme l'état actuel de l'art pour les plateformes mobiles. Enfin, les caractéristiques apprises par NASNet utilisées avec le cadre Faster-RCNN surpassent l'état actuel de l'art avec un mAP (mean Average Precision) de 43,1 % sur le jeu de données COCO, soit une amélioration de 4 %.Note: - "ScheduledDropPath" n'a pas été traduit car il s'agit d'un terme technique spécifique.- "FLOPS" a été conservé tel quel car c'est un acronyme couramment utilisé en français dans le domaine technologique.- "CIFAR-10", "ImageNet", "NASNet", "COCO", et "Faster-RCNN" sont des noms propres et ont donc été conservés tels quels.