MagicLens: Selbstüberwachte Bildsuche mit offenen Anweisungen

Bildsuche, d.h. das Auffinden gewünschter Bilder anhand eines Referenzbildes, umfasst von Natur aus reichhaltige, vielfältige Suchabsichten, die allein durch bildbasierte Maßstäbe schwer zu erfassen sind. Kürzliche Arbeiten nutzen Textanweisungen, um Benutzern ein größeres Maß an Freiheit bei der Ausdrucksweise ihrer Suchabsichten zu ermöglichen. Dennoch konzentrieren sie sich hauptsächlich auf Bildpaare, die visuell ähnlich sind und/oder durch eine kleine Anzahl vordefinierter Beziehungen charakterisiert werden können. Die zentrale These dieser Arbeit ist, dass Textanweisungen es ermöglichen, Bilder mit reichhaltigeren Beziehungen als lediglich visuelle Ähnlichkeit abzurufen. Um dies zu beweisen, stellen wir MagicLens vor, eine Reihe selbstüberwachter Bildsuchemodelle, die offene Anweisungen unterstützen. MagicLens basiert auf einem entscheidenden neuen Erkenntnis: Bildpaare, die natürlicherweise auf denselben Webseiten auftreten, enthalten eine breite Palette impliziter Beziehungen (z.B. Innenansicht), und wir können diese impliziten Beziehungen durch die Synthese von Anweisungen mittels Fundamentmodellen explizit machen. Trainiert wurde MagicLens anhand von 36,7 Millionen (Abfragebild, Anweisung, Zielbild)-Tripletten mit reichhaltigen semantischen Beziehungen, die aus dem Web extrahiert wurden. MagicLens erzielt Ergebnisse, die vergleichbar oder besser sind als die bisher besten auf acht Benchmarks verschiedener Bildsucheaufgaben und behält dabei eine hohe Parametereffizienz bei einer deutlich kleineren Modellgröße. Zusätzliche menschliche Analysen an einem unbekannten Korpus mit 1,4 Millionen Bildern verdeutlichen weiterhin die Vielfalt der durch MagicLens unterstützten Suchabsichten. Der Quellcode und die Modelle sind öffentlich verfügbar unter https://open-vision-language.github.io/MagicLens/.