Récupération d'images à partir de descriptions contextuelles

La capacité à intégrer le contexte, incluant des indices perceptifs et temporels, joue un rôle fondamental dans le repérage du sens d’un énoncé linguistique. Afin de mesurer dans quelle mesure les modèles actuels vision-langage maîtrisent cette capacité, nous proposons un nouveau défi multimodal, appelé Image Retrieval from Contextual Descriptions (ImageCoDe). Plus précisément, les modèles doivent extraire l’image correcte parmi un ensemble de 10 candidats très similaires, sur la base d’une description contextuelle. En conséquence, chaque description ne contient que les détails permettant de distinguer les images les unes des autres. En raison de cette contrainte, les descriptions sont souvent complexes en termes de syntaxe et de discours, et exigent des inférences pragmatiques. Les images proviennent à la fois de photographies statiques et de cadres vidéo. Nous évaluons plusieurs modèles de pointe, incluant à la fois des cross-encodeurs tels que ViLBERT et des bi-encodeurs tels que CLIP, sur ImageCoDe. Nos résultats révèlent que ces modèles se situent très loin derrière les performances humaines : la meilleure variante atteint une précision de 20,9 sur les cadres vidéo et de 59,4 sur les images statiques, contre 90,8 chez les humains. En outre, nous expérimentons avec de nouvelles variantes de modèles mieux équipées pour intégrer le contexte visuel et temporel dans leurs représentations, ce qui permet des gains modérés. Nous espérons que ImageCoDe stimulera les progrès dans la compréhension du langage ancrée en encourageant les modèles à se concentrer sur les différences visuelles fines.