EAutoDet : Recherche d'architecture efficace pour la détection d'objets

L’entraînement d’un réseau de neurones convolutif (CNN) pour la détection est chronophage en raison de la taille importante des jeux de données et de la complexité des modules réseau, ce qui rend difficile la recherche directe d’architectures sur des jeux de données de détection, une tâche qui nécessite généralement des coûts de recherche élevés (souvent de l’ordre de dizaines, voire de centaines de jours-GPU). À l’inverse, ce papier présente un cadre efficace, nommé EAutoDet, capable de découvrir des architectures pratiques pour les parties principales (backbone) et le module FPN (Feature Pyramid Network) en seulement 1,4 jour-GPU. Plus précisément, nous construisons un supernet pour les modules backbone et FPN, et adoptons une méthode différentiable. Pour réduire la consommation de mémoire GPU et le coût computationnel, nous proposons une technique de réutilisation des noyaux, consistant à partager les poids des opérations candidates sur une même arête et à les regrouper en une seule convolution. Une stratégie dynamique de raffinement des canaux est également introduite pour rechercher le nombre optimal de canaux. Des expériences étendues démontrent l’efficacité et la performance significatives de notre méthode. En particulier, les architectures découvertes surpassent les méthodes d’optimisation d’architecture par apprentissage automatique (NAS) de pointe pour la détection d’objets, atteignant respectivement 40,1 mAP à 120 FPS et 49,2 mAP à 41,3 FPS sur le jeu de test-dev COCO. Nous avons également transféré ces architectures vers une tâche de détection orientée (rotation detection), obtenant un score de 77,05 mAP$_{\text{50}}$ sur le jeu de test DOTA-v1.0, avec seulement 21,1 millions de paramètres.