HyperAIHyperAI

Command Palette

Search for a command to run...

L'attention portant sur des embeddings d'objets appris permet un raisonnement visuel complexe

David Ding Felix Hill Adam Santoro Malcolm Reynolds Matt Botvinick

Résumé

Les réseaux de neurones ont connu un succès remarquable dans un large éventail de tâches perceptuelles, mais ils échouent souvent lorsqu’il s’agit de tâches impliquant à la fois la perception et un raisonnement de haut niveau. Sur ces tâches plus complexes, des approches spécifiques — telles que des composants symboliques modulaires, des modèles dynamiques indépendants ou des parseurs sémantiques — conçus spécifiquement pour ce type de tâche se sont généralement révélés plus performants. Toutefois, le principal inconvénient de ces approches ciblées réside dans leur fragilité par rapport aux réseaux de neurones généralistes, nécessitant souvent des modifications importantes, voire une refonte complète, en fonction de la tâche particulière à traiter. Dans cet article, nous proposons une approche plus générale basée sur les réseaux de neurones pour les problèmes de raisonnement visuel dynamique, qui atteint des performances de pointe sur trois domaines distincts, surpassant à chaque fois les approches modulaires spécialisées conçues spécifiquement pour ces tâches. Notre méthode repose sur des représentations centrées sur les objets apprises, l’attention auto-supervisée et l’apprentissage auto-supervisé des dynamiques, les trois éléments étant conjointement nécessaires pour obtenir de fortes performances. Le succès de cette combinaison suggère qu’il n’est peut-être pas nécessaire de faire un compromis entre la flexibilité et la performance sur des problèmes impliquant un raisonnement spatio-temporel ou de type causal. Avec les bons biais doux et objectifs d’apprentissage intégrés dans un réseau de neurones, nous pourrions peut-être atteindre le meilleur des deux mondes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
L'attention portant sur des embeddings d'objets appris permet un raisonnement visuel complexe | Articles | HyperAI