HyperAIHyperAI
il y a 17 jours

FBNetV5 : Recherche d'architecture neuronale pour plusieurs tâches en une seule exécution

Bichen Wu, Chaojian Li, Hang Zhang, Xiaoliang Dai, Peizhao Zhang, Matthew Yu, Jialiang Wang, Yingyan Celine Lin, Peter Vajda
FBNetV5 : Recherche d'architecture neuronale pour plusieurs tâches en une seule exécution
Résumé

La recherche d'architecture neuronale (Neural Architecture Search, NAS) est largement adoptée pour concevoir des modèles de classification d'images précis et efficaces. Toutefois, son application à une nouvelle tâche en vision par ordinateur reste très exigeante en termes de ressources humaines et de temps. Cela s'explique par trois principaux facteurs : 1) les recherches antérieures en NAS ont été fortement orientées vers la classification d'images, au détriment de nombreuses autres tâches ; 2) de nombreuses approches de NAS se concentrent sur l'optimisation de composants spécifiques à une tâche, qui ne se transforment pas facilement à d'autres contextes ; et 3) les méthodes NAS existantes sont généralement conçues pour être « sans proxy » et nécessitent un effort considérable pour être intégrées aux pipelines d'entraînement de chaque nouvelle tâche. Pour relever ces défis, nous proposons FBNetV5, un cadre de NAS capable de rechercher des architectures neuronales adaptées à une variété de tâches en vision avec un coût computationnel et un effort humain fortement réduits. Plus précisément, nous avons conçu : 1) un espace de recherche simple, tout en étant inclusif et transférable ; 2) un processus de recherche multitâches déconnecté du pipeline d'entraînement spécifique à chaque tâche cible ; et 3) un algorithme permettant de rechercher simultanément des architectures pour plusieurs tâches, dont le coût computationnel est indépendant du nombre de tâches considérées. Nous évaluons FBNetV5 sur trois tâches fondamentales en vision : la classification d'images, la détection d'objets et la segmentation sémantique. Les modèles découverts par FBNetV5 en une seule exécution de recherche surpassent l'état de l'art antérieur dans les trois domaines : classification d'images (par exemple, +1,3 % de précision top-1 sur ImageNet, pour un nombre de FLOPs identique à celui de FBNetV3), segmentation sémantique (par exemple, +1,8 % de mIoU sur le jeu de validation ADE20K par rapport à SegFormer, avec 3,6 fois moins de FLOPs), et détection d'objets (par exemple, +1,1 % de mAP sur COCO, avec 1,2 fois moins de FLOPs qu'YOLOX).