HyperAIHyperAI

Command Palette

Search for a command to run...

Récupération d'images à partir de descriptions contextuelles

Benno Krojer Vaibhav Adlakha Vibhav Vineet Yash Goyal Edoardo Ponti Siva Reddy

Résumé

La capacité à intégrer le contexte, incluant des indices perceptifs et temporels, joue un rôle fondamental dans le repérage du sens d’un énoncé linguistique. Afin de mesurer dans quelle mesure les modèles actuels vision-langage maîtrisent cette capacité, nous proposons un nouveau défi multimodal, appelé Image Retrieval from Contextual Descriptions (ImageCoDe). Plus précisément, les modèles doivent extraire l’image correcte parmi un ensemble de 10 candidats très similaires, sur la base d’une description contextuelle. En conséquence, chaque description ne contient que les détails permettant de distinguer les images les unes des autres. En raison de cette contrainte, les descriptions sont souvent complexes en termes de syntaxe et de discours, et exigent des inférences pragmatiques. Les images proviennent à la fois de photographies statiques et de cadres vidéo. Nous évaluons plusieurs modèles de pointe, incluant à la fois des cross-encodeurs tels que ViLBERT et des bi-encodeurs tels que CLIP, sur ImageCoDe. Nos résultats révèlent que ces modèles se situent très loin derrière les performances humaines : la meilleure variante atteint une précision de 20,9 sur les cadres vidéo et de 59,4 sur les images statiques, contre 90,8 chez les humains. En outre, nous expérimentons avec de nouvelles variantes de modèles mieux équipées pour intégrer le contexte visuel et temporel dans leurs représentations, ce qui permet des gains modérés. Nous espérons que ImageCoDe stimulera les progrès dans la compréhension du langage ancrée en encourageant les modèles à se concentrer sur les différences visuelles fines.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp