HyperAIHyperAI

Command Palette

Search for a command to run...

Bildsuche auf realen Bildern mit vortrainierten Sehen-und-Sprache-Modellen

Zheyuan Liu Cristian Rodriguez-Opazo Damien Teney Stephen Gould

Zusammenfassung

Wir erweitern die Aufgabe der zusammengesetzten Bildsuche, bei der eine Eingabeabfrage aus einem Bild und einer kurzen textuellen Beschreibung besteht, wie das Bild zu modifizieren ist. Bestehende Methoden wurden bisher nur auf nicht komplexe Bilder in eng umrissenen Bereichen angewendet, wie z.B. Modeprodukte, was den Forschungsumfang zur tiefgründigen visuellen Schlussfolgerung in reichhaltigen bildlichen und sprachlichen Kontexten einschränkt. Um dieses Problem anzugehen, sammeln wir den Datensatz „Compose Image Retrieval on Real-life images“ (CIRR), der über 36.000 Paare von crowd-sourced, offenen Domänenbildern mit menschengenerierten modifizierenden Texten umfasst. Um aktuelle Methoden auf offene Domänen zu erweitern, schlagen wir CIRPLANT vor, ein auf Transformatoren basierendes Modell, das reichhaltiges vorgefertigtes Wissen über Vision und Sprache (V&L) nutzt, um visuelle Merkmale unter Berücksichtigung natürlicher Sprache zu modifizieren. Die Suche erfolgt dann durch eine Nachbarschaftssuche auf den modifizierten Merkmalen. Wir zeigen, dass CIRPLANT mit einer relativ einfachen Architektur bestehende Methoden bei offenen Domänen übertreffen kann, während es gleichzeitig die state-of-the-art-Genauigkeit bei bereits vorhandenen eng umrissenen Datensätzen wie Mode erreicht. Zusammen mit der Veröffentlichung von CIRR glauben wir, dass diese Arbeit weitere Forschungen zur zusammengesetzten Bildsuche anregen wird.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp