MnasFPN : Apprentissage d'une architecture pyramide sensible à la latence pour la détection d'objets sur les appareils mobiles

Malgré le succès croissant de la recherche d'architectures pour les tâches de vision dans des environnements à ressources limitées, la conception d'architectures de détection d'objets embarquées reste principalement manuelle. Les rares tentatives automatisées de recherche reposent soit sur des espaces de recherche non adaptés aux dispositifs mobiles, soit ne sont pas guidées par la latence sur appareil. Nous proposons MnasFPN, un espace de recherche adapté aux mobiles pour la tête de détection, combiné à une recherche d'architecture consciente de la latence, afin de produire des modèles efficaces de détection d'objets. La tête MnasFPN apprise, associée au corps MobileNetV2, obtient une performance supérieure de 1,8 mAP à une latence similaire sur Pixel, par rapport à MobileNetV3+SSDLite. Elle est également plus précise de 1,0 mAP et 10 % plus rapide que NAS-FPNLite. Des études d'ablation montrent que la majeure partie de l'amélioration de performance provient des innovations apportées à l'espace de recherche. Des explorations supplémentaires révèlent un lien intéressant entre la conception de l'espace de recherche et l'algorithme de recherche, et suggèrent que la complexité de l'espace de recherche MnasFPN pourrait se trouver à un optimum local.