L'attention portant sur des embeddings d'objets appris permet un raisonnement visuel complexe

Les réseaux de neurones ont connu un succès remarquable dans un large éventail de tâches perceptuelles, mais ils échouent souvent lorsqu’il s’agit de tâches impliquant à la fois la perception et un raisonnement de haut niveau. Sur ces tâches plus complexes, des approches spécifiques — telles que des composants symboliques modulaires, des modèles dynamiques indépendants ou des parseurs sémantiques — conçus spécifiquement pour ce type de tâche se sont généralement révélés plus performants. Toutefois, le principal inconvénient de ces approches ciblées réside dans leur fragilité par rapport aux réseaux de neurones généralistes, nécessitant souvent des modifications importantes, voire une refonte complète, en fonction de la tâche particulière à traiter. Dans cet article, nous proposons une approche plus générale basée sur les réseaux de neurones pour les problèmes de raisonnement visuel dynamique, qui atteint des performances de pointe sur trois domaines distincts, surpassant à chaque fois les approches modulaires spécialisées conçues spécifiquement pour ces tâches. Notre méthode repose sur des représentations centrées sur les objets apprises, l’attention auto-supervisée et l’apprentissage auto-supervisé des dynamiques, les trois éléments étant conjointement nécessaires pour obtenir de fortes performances. Le succès de cette combinaison suggère qu’il n’est peut-être pas nécessaire de faire un compromis entre la flexibilité et la performance sur des problèmes impliquant un raisonnement spatio-temporel ou de type causal. Avec les bons biais doux et objectifs d’apprentissage intégrés dans un réseau de neurones, nous pourrions peut-être atteindre le meilleur des deux mondes.