HyperAIHyperAI

Command Palette

Search for a command to run...

Groupement perceptif dans les modèles vision-langue contrastifs

Kanchana Ranasinghe* Brandon McKinzie Sachin Ravi Yinfei Yang Alexander Toshev Jonathon Shlens†

Résumé

Les récentes avancées en reconnaissance d'images à zéro coup d'œil suggèrent que les modèles de vision-langue apprennent des représentations visuelles génériques contenant un haut degré d'information sémantique qui peuvent être arbitrairement interrogées par des phrases en langage naturel. Cependant, comprendre une image ne se limite pas à identifier son contenu, mais implique également de savoir où ce contenu est situé. Dans cette étude, nous examinons la capacité des modèles de vision-langue à comprendre l'emplacement des objets dans une image et à regrouper les parties visuellement liées de l'image. Nous montrons comment les modèles actuels d'apprentissage des représentations de vision et de langage, basés sur des pertes contrastives et sur de grandes bases de données web, capturent une information limitée sur la localisation des objets. Nous proposons un ensemble minimal de modifications qui permettent aux modèles d'apprendre à la fois l'information sémantique et spatiale. Nous mesurons ces performances en termes de reconnaissance d'images à zéro coup d’œil, de segmentations sémantiques ascendantes et descendantes non supervisées, ainsi que d'analyses de robustesse. Nous constatons que le modèle résultant obtient des résultats d'avant-garde en termes de segmentation non supervisée et démontrons que les représentations apprises sont particulièrement robustes face aux corrélations parasites dans les jeux de données conçus pour tester le comportement causal des modèles de vision.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp