il y a 6 mois

Résumé

La capacité à raisonner sur les relations visuelles est au cœur de la manière dont les êtres humains interprètent le monde visuel. Cette tâche reste difficile pour les algorithmes actuels basés sur l’apprentissage profond, car elle exige la résolution conjointe de trois problèmes techniques clés : 1) l’identification des entités objets et de leurs propriétés, 2) l’inférence des relations sémantiques entre paires d’entités, et 3) la généralisation à de nouvelles combinaisons objet-relation, c’est-à-dire une généralisation systématique. Dans ce travail, nous utilisons les vision transformers (ViTs) comme modèle de base pour le raisonnement visuel, tout en exploitant de manière plus efficace les concepts définis comme entités objets et leurs relations afin d’améliorer la capacité de raisonnement des ViTs. Plus précisément, nous introduisons un nouveau dictionnaire concept-fonction qui permet une récupération flexible des caractéristiques d’image pendant l’entraînement, en utilisant des clés de concept. Ce dictionnaire permet de définir deux nouvelles tâches auxiliaires guidées par les concepts : 1) une tâche globale visant à promouvoir le raisonnement relationnel, et 2) une tâche locale facilitant l’apprentissage de correspondances sémantiques centrées sur les objets. Pour évaluer la généralisation systématique des modèles de raisonnement visuel, nous proposons de nouvelles partitions systématiques pour les benchmarks standards HICO et GQA. Nous montrons que le modèle résultant, le Concept-guided Vision Transformer (ou RelViT pour abréger), surpasse significativement les approches antérieures sur HICO et GQA, avec une amélioration de 16 % et 13 % respectivement dans la partition originale, et de 43 % et 18 % dans la partition systématique. Nos analyses d’ablation révèlent également la compatibilité de notre modèle avec plusieurs variantes de ViT, ainsi que sa robustesse aux hyperparamètres.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Apprentissage Multi-tâches

Réponse À Des Questions Visuelles

Approche/Framework

Multimodal

Tâche

Xiaojian Ma Weili Nie Zhiding Yu Huaizu Jiang Chaowei Xiao Yuke Zhu Song-Chun Zhu Anima Anandkumar

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Apprentissage Multi-tâches

Réponse À Des Questions Visuelles

Approche/Framework

Multimodal

Tâche

Xiaojian Ma Weili Nie Zhiding Yu Huaizu Jiang Chaowei Xiao Yuke Zhu Song-Chun Zhu Anima Anandkumar

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

RelViT : Vision Transformer guidée par les concepts pour le raisonnement relationnel visuel | Articles | HyperAI

Command Palette

RelViT : Vision Transformer guidée par les concepts pour le raisonnement relationnel visuel

Xiaojian Ma Weili Nie Zhiding Yu Huaizu Jiang Chaowei Xiao Yuke Zhu Song-Chun Zhu Anima Anandkumar

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

RelViT : Vision Transformer guidée par les concepts pour le raisonnement relationnel visuel

Xiaojian Ma Weili Nie Zhiding Yu Huaizu Jiang Chaowei Xiao Yuke Zhu Song-Chun Zhu Anima Anandkumar

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

RelViT : Vision Transformer guidée par les concepts pour le raisonnement relationnel visuel

Xiaojian Ma Weili Nie Zhiding Yu Huaizu Jiang Chaowei Xiao Yuke Zhu Song-Chun Zhu Anima Anandkumar

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters