Bildkomposition für domainübergreifende Konvertierung ohne Training

Diese Arbeit befasst sich mit der komponierten Bildsuche im Kontext der Domänenkonvertierung, bei der der Inhalt eines Abfragebildes in der durch den Abfragetext spezifizierten Domäne abgerufen wird. Wir zeigen, dass ein leistungsfähiges visuelles Sprachmodell ausreichende deskriptive Kraft bietet, ohne zusätzliche Trainingsphasen zu benötigen. Das Abfragebild wird durch textuelle Inversion in den Texteingaberaum abgebildet. Im Gegensatz zur üblichen Praxis, die die kontinuierliche Raum von Texttokens verwendet, setzen wir die diskrete Wortsprache ein, indem wir eine nearest-neighbor-Suche (nächste-Nachbarn-Suche) in einem Textvokabular durchführen. Durch diese Inversion wird das Bild weich über das Vokabular abgebildet und durch retrivielle Augmentation (retrieval-basierte Erweiterung) robuster gemacht. Datenbankbilder werden durch ein gewichtete Kombination von Textabfragen abgerufen, wobei die abgebildeten Wörter mit dem Domänetext kombiniert werden. Unsere Methode übertrifft den Stand der Technik erheblich auf Standard- und neu eingeführten Benchmarks. Code: https://github.com/NikosEfth/freedom