HyperAIHyperAI
il y a 2 mois

Apprendre quoi et où : Désentrelacer le suivi de la localisation et de l'identité sans supervision

Manuel Traub; Sebastian Otte; Tobias Menge; Matthias Karlbauer; Jannik Thümmel; Martin V. Butz
Apprendre quoi et où : Désentrelacer le suivi de la localisation et de l'identité sans supervision
Résumé

Notre cerveau est capable de décomposer presque sans effort les flux de données visuelles en arrière-plan et objets saillants. De plus, il peut anticiper le mouvement et les interactions des objets, des capacités essentielles pour la planification conceptuelle et le raisonnement. Les récentes bases de données d'inférence d'objets, telles que CATER, ont mis en évidence les lacunes fondamentales des systèmes d'IA basés sur la vision actuels, en particulier lorsqu'il s'agit de représentations explicites d'objets, de permanence d'objets et de raisonnement sur les objets. Nous présentons ici un système auto-supervisé de suivi de LOCALISATION et d'IDENTITÉ (Loci) qui se distingue dans le défi de suivi CATER. Inspiré par les voies dorsale et ventrale du cerveau, Loci aborde le problème du liage en traitant des encodages distincts et emboîtés de « quoi » et « où ». Le traitement similaire au codage prédictif de Loci favorise une minimisation active des erreurs, de telle sorte que chaque emplacement tend à encoder un objet individuel. Les interactions entre objets et la dynamique des objets sont traitées dans l'espace latent désentrelacé. La rétropropagation tronquée dans le temps combinée à l'accumulation progressive vers l'avant accélère considérablement l'apprentissage et améliore l'efficacité mémoire. Outre une performance supérieure dans les benchmarks actuels, Loci extrait efficacement les objets des flux vidéo et les sépare en composantes de localisation et de Gestalt. Nous pensons que cette séparation offre une représentation qui facilitera la planification efficace et le raisonnement à des niveaux conceptuels.

Apprendre quoi et où : Désentrelacer le suivi de la localisation et de l'identité sans supervision | Articles de recherche récents | HyperAI