Zoom Meilleur pour Voir Plus Clairement : Analyse Humaine et Objets avec un Réseau Auto-Zoom Hiérarchique

Le découpage d’objets articulés, tels que les êtres humains ou les animaux, en parties sémantiques (par exemple corps, tête, bras, etc.) à partir d’images naturelles constitue un problème fondamental et difficile en vision par ordinateur. Un défi majeur réside dans la grande variabilité des échelles et des positions des objets ainsi que de leurs parties correspondantes. Même de petites erreurs dans l’estimation de l’échelle et de la localisation entraînent une dégradation significative des résultats de découpage et des erreurs dans les détails des contours. Pour surmonter ces difficultés, nous proposons un modèle appelé « Hierarchical Auto-Zoom Net » (HAZN) pour le découpage des parties d’objets, qui s’adapte automatiquement aux échelles locales des objets et de leurs parties. HAZN est une suite de deux réseaux « Auto-Zoom Net » (AZN), chacun reposant sur des réseaux convolutionnels entièrement connectés et accomplissant deux tâches : (1) prédire les positions et les échelles des instances d’objets (premier AZN) ou de leurs parties (deuxième AZN) ; (2) estimer les scores des parties pour les régions prédites d’objets ou de parties. Notre modèle peut ainsi s’adapter de manière « zoomée » (redimensionnée) aux régions d’image prédites, afin de les ajuster à leur échelle appropriée et d’améliorer le découpage.Nous avons mené des expériences approfondies sur les jeux de données PASCAL Part concernant les humains, les chevaux et les vaches. Pour les humains, notre approche dépasse significativement les méthodes de pointe, avec une amélioration de 5 % en mIOU, et se distingue particulièrement dans la segmentation des petites instances et des petites parties. Des améliorations similaires sont obtenues pour le découpage des vaches et des chevaux par rapport aux méthodes alternatives. En résumé, notre stratégie, consistant à d’abord zoomer sur les objets, puis à zoomer sur leurs parties, s’avère très efficace. Elle permet également de traiter différentes régions de l’image à des échelles adaptatives, évitant ainsi, par exemple, de gaspiller des ressources computationnelles à redimensionner l’image entière.