Command Palette
Search for a command to run...
RelViT : Vision Transformer guidée par les concepts pour le raisonnement relationnel visuel
RelViT : Vision Transformer guidée par les concepts pour le raisonnement relationnel visuel
Xiaojian Ma Weili Nie Zhiding Yu Huaizu Jiang Chaowei Xiao Yuke Zhu Song-Chun Zhu Anima Anandkumar
Résumé
La capacité à raisonner sur les relations visuelles est au cœur de la manière dont les êtres humains interprètent le monde visuel. Cette tâche reste difficile pour les algorithmes actuels basés sur l’apprentissage profond, car elle exige la résolution conjointe de trois problèmes techniques clés : 1) l’identification des entités objets et de leurs propriétés, 2) l’inférence des relations sémantiques entre paires d’entités, et 3) la généralisation à de nouvelles combinaisons objet-relation, c’est-à-dire une généralisation systématique. Dans ce travail, nous utilisons les vision transformers (ViTs) comme modèle de base pour le raisonnement visuel, tout en exploitant de manière plus efficace les concepts définis comme entités objets et leurs relations afin d’améliorer la capacité de raisonnement des ViTs. Plus précisément, nous introduisons un nouveau dictionnaire concept-fonction qui permet une récupération flexible des caractéristiques d’image pendant l’entraînement, en utilisant des clés de concept. Ce dictionnaire permet de définir deux nouvelles tâches auxiliaires guidées par les concepts : 1) une tâche globale visant à promouvoir le raisonnement relationnel, et 2) une tâche locale facilitant l’apprentissage de correspondances sémantiques centrées sur les objets. Pour évaluer la généralisation systématique des modèles de raisonnement visuel, nous proposons de nouvelles partitions systématiques pour les benchmarks standards HICO et GQA. Nous montrons que le modèle résultant, le Concept-guided Vision Transformer (ou RelViT pour abréger), surpasse significativement les approches antérieures sur HICO et GQA, avec une amélioration de 16 % et 13 % respectivement dans la partition originale, et de 43 % et 18 % dans la partition systématique. Nos analyses d’ablation révèlent également la compatibilité de notre modèle avec plusieurs variantes de ViT, ainsi que sa robustesse aux hyperparamètres.