Verallgemeinert sich die Leistung von Text-zu-Bild-Abfragemodellen über die Verwendung von Captions als Query hinaus?
Text-Image Retrieval (T2I) bezeichnet die Aufgabe, alle Bilder zu identifizieren, die einer Schlüsselwortanfrage entsprechen. Beliebte Datensätze für das Text-Image Retrieval, wie Flickr30k, VG oder MS-COCO, verwenden annotierte Bildbeschreibungen – beispielsweise „ein Mann spielt mit einem Kind“ – als Ersatz für Anfragen. Mit solchen Ersatzanfragen erzielen aktuelle multimodale maschinelle Lernmodelle, wie CLIP oder BLIP, bemerkenswerte Ergebnisse. Der Hauptgrund hierfür liegt in der deskriptiven Natur der Beschreibungen, die den Inhalt eines Bildes detailliert wiedergeben. Dennoch gehen T2I-Anfragen über die bloße Beschreibung in Bild-Beschreibung-Paaren hinaus. Daher eignen sich diese Datensätze nur unzureichend, um Methoden auf abstraktere oder konzeptionellere Anfragen zu testen, beispielsweise „Familienurlaub“. Bei solchen Anfragen ist der Bildinhalt implizit enthalten, anstatt explizit beschrieben. In diesem Artikel replizieren wir die T2I-Ergebnisse für deskriptive Anfragen und erweitern sie auf konzeptionelle Anfragen. Dazu führen wir neue Experimente an einem neuartigen T2I-Benchmark für die Aufgabe der konzeptionellen Anfragebeantwortung durch, namens ConQA. ConQA umfasst 30 deskriptive und 50 konzeptionelle Anfragen zu 43.000 Bildern, wobei pro Anfrage mehr als 100 manuell annotierte Bilder vorhanden sind. Unsere Ergebnisse auf etablierten Metriken zeigen, dass sowohl große vortrainierte Modelle (z. B. CLIP, BLIP und BLIP2) als auch kleine Modelle (z. B. SGRAF und NAAF) bei deskriptiven Anfragen bis zu viermal besser abschneiden als bei konzeptionellen Anfragen. Zudem stellen wir fest, dass die Modelle bei Anfragen mit mehr als sechs Wörtern, wie in den MS-COCO-Beschreibungen, besser performen.