Kontext-I2W: Abbildung von Bildern auf kontextabhängige Wörter für genaue Zero-Shot-Kompositionale Bildsuche

Im Gegensatz zur Aufgabe der komponierten Bildsuche, die teure Labels für das Training aufgabenbezogener Modelle erfordert, umfasst die Zero-Shot-Komponierte-Bildsuche (ZS-CIR) eine Vielzahl von Aufgaben mit einem breiten Spektrum an Absichten zur Manipulation visueller Inhalte, die sich auf Domänen, Szenen, Objekte und Attribute beziehen können. Die Hauptausforderung bei ZS-CIR-Aufgaben besteht darin, eine genaueere Bildrepräsentation zu lernen, die eine anpassungsfähige Aufmerksamkeit auf das Referenzbild für verschiedene Manipulationsbeschreibungen hat. In dieser Arbeit schlagen wir ein neuartiges kontextabhängiges Abbildungsnetzwerk vor, das Context-I2W genannt wird, welches beschreibungsrelevante Bildinformationen in einen Pseudo-Worttoken umwandelt, der aus der Beschreibung zusammengesetzt ist, um eine präzise ZS-CIR durchzuführen. Insbesondere lernt ein Intent-View-Selector zunächst dynamisch eine Rotationsregel, um identische Bilder in eine aufgabenbezogene Manipulationsansicht abzubilden. Anschließend fängt ein Visual-Target-Extractor unter der Anleitung mehrerer lernfähiger Abfragen lokale Informationen ein, die die Hauptziele in ZS-CIR-Aufgaben abdecken. Die beiden ergänzenden Module arbeiten zusammen, um ein Bild ohne zusätzliche Überwachung in einen kontextabhängigen Pseudo-Worttoken abzubilden. Unser Modell zeigt starke Generalisierungsfähigkeiten bei vier ZS-CIR-Aufgaben: Domänenkonvertierung, Objektkomposition, Objektmanipulation und Attributmanipulation. Es erzielt konsistente und signifikante Leistungssteigerungen im Bereich von 1,88 % bis 3,60 % im Vergleich zu den besten Methoden und erreicht neue Stand-of-the-Art-Ergebnisse in ZS-CIR. Unser Code ist unter https://github.com/Pter61/context-i2w verfügbar.请注意,"Stand-of-the-Art" 在德语中通常写作 "State-of-the-Art",但为了保持与原文的一致性,这里使用了 "Stand-of-the-Art"。如果需要更符合德语习惯的表达,可以将其改为 "State-of-the-Art"。