HyperAIHyperAI

Command Palette

Search for a command to run...

Bildabfrage aus kontextuellen Beschreibungen

Benno Krojer Vaibhav Adlakha Vibhav Vineet Yash Goyal Edoardo Ponti Siva Reddy

Zusammenfassung

Die Fähigkeit, Kontext – einschließlich perceptueller und zeitlicher Hinweise – zu integrieren, spielt eine entscheidende Rolle bei der Verankerung der Bedeutung einer sprachlichen Äußerung. Um zu messen, inwieweit aktuelle Vision-und-Sprache-Modelle diese Fähigkeit beherrschen, stellen wir eine neue multimodale Herausforderung vor: Image Retrieval from Contextual Descriptions (ImageCoDe). In diesem Setup müssen Modelle das korrekte Bild aus einer Gruppe von zehn minimal unterschiedlichen Kandidaten anhand einer kontextuellen Beschreibung finden. Jede Beschreibung enthält ausschließlich jene Details, die zur Unterscheidung zwischen den Bildern beitragen. Aufgrund dieser Eigenschaft sind die Beschreibungen oft syntaktisch und diskursiv komplex und erfordern pragmatische Schlussfolgerungen. Die Bilder stammen sowohl aus statischen Abbildungen als auch aus Videoframes. Wir benchmarken mehrere state-of-the-art-Modelle, darunter sowohl Cross-Encoders wie ViLBERT als auch Bi-Encoders wie CLIP, auf ImageCoDe. Unsere Ergebnisse zeigen, dass diese Modelle gegenüber menschlicher Leistung deutlich hinterherhinken: Das beste Modell erreicht eine Genauigkeit von 20,9 bei Videoframes und 59,4 bei statischen Bildern, verglichen mit 90,8 bei Menschen. Zudem testen wir neue Modellvarianten, die besser in der Lage sind, visuellen und zeitlichen Kontext in ihre Repräsentationen einzubinden, wobei sich moderate Verbesserungen ergeben. Wir hoffen, dass ImageCoDe Fortschritte im Bereich des kontextualisierten Sprachverstehens fördern wird, indem sie Modelle dazu anregt, sich auf feinabgestimmte visuelle Unterschiede zu konzentrieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp