Bildabfrage aus kontextuellen Beschreibungen

Die Fähigkeit, Kontext – einschließlich perceptueller und zeitlicher Hinweise – zu integrieren, spielt eine entscheidende Rolle bei der Verankerung der Bedeutung einer sprachlichen Äußerung. Um zu messen, inwieweit aktuelle Vision-und-Sprache-Modelle diese Fähigkeit beherrschen, stellen wir eine neue multimodale Herausforderung vor: Image Retrieval from Contextual Descriptions (ImageCoDe). In diesem Setup müssen Modelle das korrekte Bild aus einer Gruppe von zehn minimal unterschiedlichen Kandidaten anhand einer kontextuellen Beschreibung finden. Jede Beschreibung enthält ausschließlich jene Details, die zur Unterscheidung zwischen den Bildern beitragen. Aufgrund dieser Eigenschaft sind die Beschreibungen oft syntaktisch und diskursiv komplex und erfordern pragmatische Schlussfolgerungen. Die Bilder stammen sowohl aus statischen Abbildungen als auch aus Videoframes. Wir benchmarken mehrere state-of-the-art-Modelle, darunter sowohl Cross-Encoders wie ViLBERT als auch Bi-Encoders wie CLIP, auf ImageCoDe. Unsere Ergebnisse zeigen, dass diese Modelle gegenüber menschlicher Leistung deutlich hinterherhinken: Das beste Modell erreicht eine Genauigkeit von 20,9 bei Videoframes und 59,4 bei statischen Bildern, verglichen mit 90,8 bei Menschen. Zudem testen wir neue Modellvarianten, die besser in der Lage sind, visuellen und zeitlichen Kontext in ihre Repräsentationen einzubinden, wobei sich moderate Verbesserungen ergeben. Wir hoffen, dass ImageCoDe Fortschritte im Bereich des kontextualisierten Sprachverstehens fördern wird, indem sie Modelle dazu anregt, sich auf feinabgestimmte visuelle Unterschiede zu konzentrieren.