ScaleNAS : Apprentissage One-Shot de Représentations Sensibles à l’Échelle pour la Reconnaissance Visuelle

L’instabilité de l’échelle entre différentes tailles des parties du corps et des objets constitue un défi majeur pour les tâches de reconnaissance visuelle. Les travaux existants s’appuient généralement sur des architectures de base spécifiques ou sur une recherche d’architecture neuronale (Neural Architecture Search, NAS) adaptée à chaque tâche afin de relever ce défi. Toutefois, ces approches imposent des contraintes importantes sur l’espace de conception ou de recherche. Pour surmonter ces limitations, nous proposons ScaleNAS, une méthode d’apprentissage one-shot permettant d’explorer des représentations sensibles à l’échelle. ScaleNAS résout plusieurs tâches simultanément en cherchant une agrégation de caractéristiques à plusieurs échelles. Elle utilise un espace de recherche flexible, permettant un nombre arbitraire de blocs et de fusions de caractéristiques entre échelles. Afin de faire face au coût élevé de recherche lié à cet espace souple, ScaleNAS met en œuvre un apprentissage one-shot pour un supernet multi-échelle, piloté par un échantillonnage groupé et une recherche évolutionnaire. Sans re-entraînement supplémentaire, ScaleNet peut être directement déployé pour diverses tâches de reconnaissance visuelle, offrant des performances supérieures. Nous utilisons ScaleNAS pour concevoir des modèles à haute résolution pour deux tâches distinctes : ScaleNet-P pour l’estimation de posture humaine et ScaleNet-S pour la segmentation sémantique. ScaleNet-P et ScaleNet-S surpassent à la fois les méthodes manuellement conçues et celles basées sur la NAS dans leurs respectives tâches. Lorsqu’il est appliqué à l’estimation de posture humaine par approche bottom-up, ScaleNet-P dépasse l’état de l’art représenté par HigherHRNet. En particulier, ScaleNet-P4 atteint un score de 71,6 % AP sur le jeu de test-dev de COCO, établissant un nouveau record mondial.