HyperAIHyperAI
vor 2 Monaten

Bildsuche auf realen Bildern mit vortrainierten Sehen-und-Sprache-Modellen

Liu, Zheyuan ; Rodriguez-Opazo, Cristian ; Teney, Damien ; Gould, Stephen
Bildsuche auf realen Bildern mit vortrainierten Sehen-und-Sprache-Modellen
Abstract

Wir erweitern die Aufgabe der zusammengesetzten Bildsuche, bei der eine Eingabeabfrage aus einem Bild und einer kurzen textuellen Beschreibung besteht, wie das Bild zu modifizieren ist. Bestehende Methoden wurden bisher nur auf nicht komplexe Bilder in eng umrissenen Bereichen angewendet, wie z.B. Modeprodukte, was den Forschungsumfang zur tiefgründigen visuellen Schlussfolgerung in reichhaltigen bildlichen und sprachlichen Kontexten einschränkt. Um dieses Problem anzugehen, sammeln wir den Datensatz „Compose Image Retrieval on Real-life images“ (CIRR), der über 36.000 Paare von crowd-sourced, offenen Domänenbildern mit menschengenerierten modifizierenden Texten umfasst. Um aktuelle Methoden auf offene Domänen zu erweitern, schlagen wir CIRPLANT vor, ein auf Transformatoren basierendes Modell, das reichhaltiges vorgefertigtes Wissen über Vision und Sprache (V&L) nutzt, um visuelle Merkmale unter Berücksichtigung natürlicher Sprache zu modifizieren. Die Suche erfolgt dann durch eine Nachbarschaftssuche auf den modifizierten Merkmalen. Wir zeigen, dass CIRPLANT mit einer relativ einfachen Architektur bestehende Methoden bei offenen Domänen übertreffen kann, während es gleichzeitig die state-of-the-art-Genauigkeit bei bereits vorhandenen eng umrissenen Datensätzen wie Mode erreicht. Zusammen mit der Veröffentlichung von CIRR glauben wir, dass diese Arbeit weitere Forschungen zur zusammengesetzten Bildsuche anregen wird.