HyperAIHyperAI

Command Palette

Search for a command to run...

Raisonnement visuel interprétable via un espace symbolique induit

Zhonghao Wang Kai Wang Mo Yu Jinjun Xiong Wen-mei Hwu Mark Hasegawa-Johnson Humphrey Shi

Résumé

Nous étudions le problème de l’induction de concepts en raisonnement visuel, c’est-à-dire l’identification de concepts et de leurs relations hiérarchiques à partir de paires question-réponse associées à des images ; et nous obtenons un modèle interprétable en opérant dans l’espace symbolique de concepts induits. Pour cela, nous proposons d’abord un nouveau cadre, nommé modèle d’attention compositional centré sur les objets (OCCAM), destiné à réaliser la tâche de raisonnement visuel à l’aide de caractéristiques visuelles au niveau des objets. Ensuite, nous introduisons une méthode pour induire les concepts des objets et des relations à partir des indices présents dans les motifs d’attention entre les caractéristiques visuelles des objets et les mots de la question. Enfin, nous atteignons un niveau supérieur d’interprétabilité en appliquant OCCAM aux objets représentés dans l’espace symbolique de concepts induit. La conception de notre modèle permet une adaptation aisée : il suffit tout d’abord de prédire les concepts des objets et des relations, puis de projeter ces concepts prédits de retour dans l’espace des caractéristiques visuelles, afin que le module de raisonnement compositional puisse fonctionner normalement. Des expériences menées sur les jeux de données CLEVR et GQA démontrent que : 1) notre OCCAM atteint un nouveau record d’État de l’art sans recourir à des programmes fonctionnels annotés manuellement ; 2) les concepts induits sont à la fois précis et suffisants, puisque OCCAM obtient des performances comparables, qu’il traite les objets représentés dans les caractéristiques visuelles ou dans l’espace symbolique de concepts induit.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp