HyperAIHyperAI
il y a 11 jours

WALT : Regarder et apprendre une représentation amodale 2D à partir d’images séquentielles

{Srinivasa G. Narasimhan, Robert Tamburo, N. Dinesh Reddy}
WALT : Regarder et apprendre une représentation amodale 2D à partir d’images séquentielles
Résumé

Les méthodes actuelles de détection, de segmentation et de suivi d’objets échouent en présence d’occlusions sévères dans des environnements urbains denses. Les données réelles étiquetées d’occlusions sont rares (même dans les grands jeux de données), tandis que les données synthétiques présentent un écart de domaine, rendant difficile la modélisation explicite et l’apprentissage des occlusions. Dans ce travail, nous combinons le meilleur des mondes réel et synthétique pour une supervision automatique des occlusions, en exploitant une source de données largement disponible : des images en time-lapse provenant de webcams stationnaires observant des carrefours routiers sur des périodes allant de plusieurs semaines à plusieurs mois, voire des années. Nous introduisons un nouveau jeu de données, Watch and Learn Time-lapse (WALT), comprenant 12 caméras (en 4K et 1080p) capturant des environnements urbains sur une année entière. Nous exploitons ces données réelles de manière novatrice pour extraire automatiquement un grand ensemble d’objets non occlués, puis les composites dans les mêmes vues afin de générer des occlusions. Cette supervision auto-supervisée longitudinale est suffisamment puissante pour permettre à un réseau amodal d’apprendre des représentations des couches objet-occluant-occlu. Nous montrons comment accélérer la découverte des objets non occlués et établissons une relation entre la confiance dans cette découverte et le taux et la précision de l’apprentissage des objets occlus. Après plusieurs jours d’observation et d’apprentissage automatique, cette approche permet une amélioration significative de la détection et de la segmentation des personnes et des véhicules occlus, surpassant les approches amodales supervisées par l’humain.

WALT : Regarder et apprendre une représentation amodale 2D à partir d’images séquentielles | Articles de recherche récents | HyperAI