Bidirektionales Training für die Bildsuche durch Textanfrage und Lernverfahren

Die komponierte Bildsuche sucht nach einem Zielbild basierend auf einer multimodalen Benutzeranfrage, die aus einem Referenzbild und einem Modifikationstext besteht, der die gewünschten Änderungen beschreibt. Bestehende Ansätze zur Lösung dieser anspruchsvollen Aufgabe lernen eine Abbildung von dem (Referenzbild, Modifikationstext)-Paar zu einer Bildrepräsentation, die dann mit einem großen Bildkorpus abgeglichen wird. Ein Bereich, der bisher noch nicht erforscht wurde, ist die umgekehrte Richtung, die sich mit der Frage befasst: Welches Referenzbild würde bei den im Text beschriebenen Modifikationen das gegebene Zielbild erzeugen? In dieser Arbeit schlagen wir ein bidirektionales Trainingsverfahren vor, das solche umgekehrten Anfragen nutzt und auf bestehende Architekturen für die komponierte Bildsuche mit minimalen Änderungen angewendet werden kann, was die Leistung des Modells verbessert. Um die bidirektionale Anfrage zu kodieren, fügen wir einen lernbaren Token am Anfang des Modifikationstexts hinzu, der die Richtung der Anfrage kennzeichnet, und feinjustieren dann die Parameter des Texteinbettungsmoduls. Wir führen keine weiteren Änderungen an der Netzarchitektur durch. Experimente auf zwei Standarddatensätzen zeigen, dass unser neuartiger Ansatz eine verbesserte Leistung gegenüber einem basisierenden BLIP-Modell erreicht, das bereits wettbewerbsfähige Ergebnisse liefert. Unser Code ist unter https://github.com/Cuberick-Orion/Bi-Blip4CIR veröffentlicht.