HyperAIHyperAI

Command Palette

Search for a command to run...

Bidirektionales Training für die Bildsuche durch Textanfrage und Lernverfahren

Zheyuan Liu Weixuan Sun Yicong Hong Damien Teney Stephen Gould

Zusammenfassung

Die komponierte Bildsuche sucht nach einem Zielbild basierend auf einer multimodalen Benutzeranfrage, die aus einem Referenzbild und einem Modifikationstext besteht, der die gewünschten Änderungen beschreibt. Bestehende Ansätze zur Lösung dieser anspruchsvollen Aufgabe lernen eine Abbildung von dem (Referenzbild, Modifikationstext)-Paar zu einer Bildrepräsentation, die dann mit einem großen Bildkorpus abgeglichen wird. Ein Bereich, der bisher noch nicht erforscht wurde, ist die umgekehrte Richtung, die sich mit der Frage befasst: Welches Referenzbild würde bei den im Text beschriebenen Modifikationen das gegebene Zielbild erzeugen? In dieser Arbeit schlagen wir ein bidirektionales Trainingsverfahren vor, das solche umgekehrten Anfragen nutzt und auf bestehende Architekturen für die komponierte Bildsuche mit minimalen Änderungen angewendet werden kann, was die Leistung des Modells verbessert. Um die bidirektionale Anfrage zu kodieren, fügen wir einen lernbaren Token am Anfang des Modifikationstexts hinzu, der die Richtung der Anfrage kennzeichnet, und feinjustieren dann die Parameter des Texteinbettungsmoduls. Wir führen keine weiteren Änderungen an der Netzarchitektur durch. Experimente auf zwei Standarddatensätzen zeigen, dass unser neuartiger Ansatz eine verbesserte Leistung gegenüber einem basisierenden BLIP-Modell erreicht, das bereits wettbewerbsfähige Ergebnisse liefert. Unser Code ist unter https://github.com/Cuberick-Orion/Bi-Blip4CIR veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp