HyperAIHyperAI

Command Palette

Search for a command to run...

RelViT : Vision Transformer guidée par les concepts pour le raisonnement relationnel visuel

Xiaojian Ma Weili Nie Zhiding Yu Huaizu Jiang Chaowei Xiao Yuke Zhu Song-Chun Zhu Anima Anandkumar

Résumé

La capacité à raisonner sur les relations visuelles est au cœur de la manière dont les êtres humains interprètent le monde visuel. Cette tâche reste difficile pour les algorithmes actuels basés sur l’apprentissage profond, car elle exige la résolution conjointe de trois problèmes techniques clés : 1) l’identification des entités objets et de leurs propriétés, 2) l’inférence des relations sémantiques entre paires d’entités, et 3) la généralisation à de nouvelles combinaisons objet-relation, c’est-à-dire une généralisation systématique. Dans ce travail, nous utilisons les vision transformers (ViTs) comme modèle de base pour le raisonnement visuel, tout en exploitant de manière plus efficace les concepts définis comme entités objets et leurs relations afin d’améliorer la capacité de raisonnement des ViTs. Plus précisément, nous introduisons un nouveau dictionnaire concept-fonction qui permet une récupération flexible des caractéristiques d’image pendant l’entraînement, en utilisant des clés de concept. Ce dictionnaire permet de définir deux nouvelles tâches auxiliaires guidées par les concepts : 1) une tâche globale visant à promouvoir le raisonnement relationnel, et 2) une tâche locale facilitant l’apprentissage de correspondances sémantiques centrées sur les objets. Pour évaluer la généralisation systématique des modèles de raisonnement visuel, nous proposons de nouvelles partitions systématiques pour les benchmarks standards HICO et GQA. Nous montrons que le modèle résultant, le Concept-guided Vision Transformer (ou RelViT pour abréger), surpasse significativement les approches antérieures sur HICO et GQA, avec une amélioration de 16 % et 13 % respectivement dans la partition originale, et de 43 % et 18 % dans la partition systématique. Nos analyses d’ablation révèlent également la compatibilité de notre modèle avec plusieurs variantes de ViT, ainsi que sa robustesse aux hyperparamètres.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp