HyperAIHyperAI
il y a 17 jours

Recherche efficace d'architecture neuronale mondiale

{Theocharis Theocharides, Christos Kyrkou, Shahid Siddiqui}
Recherche efficace d'architecture neuronale mondiale
Résumé

La recherche d'architecture neuronique (NAS) s'est révélée prometteuse pour automatiser la conception de réseaux de neurones en vue d'une tâche donnée, mais elle reste très exigeante en termes de ressources computationnelles en raison des coûts associés à l'entraînement de nombreuses architectures afin de trouver celle optimale. Afin d'accélérer la NAS, les travaux récents limitent la recherche aux blocs de construction de réseau (recherche modulaire), au lieu de chercher l'architecture entière (recherche globale), approximent l'évaluation des performances des candidats sans effectuer un entraînement complet, et utilisent la descente de gradient plutôt que des méthodes d'optimisation discrète naturellement adaptées. Toutefois, la recherche modulaire ne détermine pas l'architecture macro du réseau, c'est-à-dire sa profondeur et sa largeur, ce qui impose une phase postérieure de tests manuels par essais et erreurs, réduisant ainsi l'automatisation. Dans ce travail, nous revisitons la NAS et concevons un espace de recherche macro-micro navigable tout en offrant une grande diversité architecturale. En outre, pour établir les classements relatifs des candidats, les méthodes existantes appliquent des approximations uniformes sur l'ensemble de l'espace de recherche, alors que différents réseaux peuvent ne pas être équitablement comparables sous un même protocole d'entraînement. Nous proposons donc une approximation consciente de l'architecture, avec des schémas d'entraînement variables adaptés à chaque réseau. Par ailleurs, nous développons une stratégie de recherche efficace en dissociant la conception macro et micro du réseau, permettant d'obtenir des architectures compétitives tant en précision qu'en taille. Notre cadre proposé atteint un nouveau état de l'art sur les jeux de données EMNIST et KMNIST, tout en restant très compétitif sur CIFAR-10, CIFAR-100 et FashionMNIST, et est 2 à 4 fois plus rapide que les méthodes de recherche globale les plus rapides. Enfin, nous démontrons la transférabilité de notre cadre à des problèmes réels de vision par ordinateur en découvrant des architectures performantes pour des applications de reconnaissance faciale.