HyperAIHyperAI
vor 17 Tagen

Komponierte Bildabfrage mittels Kontrastivem Lernen und aufgabeorientierten CLIP-basierten Merkmalen

Alberto Baldrati, Marco Bertini, Tiberio Uricchio, Alberto del Bimbo
Komponierte Bildabfrage mittels Kontrastivem Lernen und aufgabeorientierten CLIP-basierten Merkmalen
Abstract

Gegeben eine Abfrage, die aus einem Referenzbild und einer relativen Beschreibung besteht, besteht das Ziel der zusammengesetzten Bildretrieval-Aufgabe darin, Bilder zu finden, die visuell dem Referenzbild ähnlich sind und gleichzeitig die durch die Beschreibung ausgedrückten Modifikationen integrieren. Da jüngere Forschungsergebnisse die Wirksamkeit von großskaligen vision- und sprachprätrainierten (VLP) Modellen in verschiedenen Aufgaben gezeigt haben, stützen wir uns bei der Lösung der vorliegenden Aufgabe auf Merkmale des OpenAI CLIP-Modells. Zunächst führen wir eine auf die Aufgabe zugeschnittene Feinabstimmung beider CLIP-Encoder durch, wobei wir die elementweise Summe aus visuellen und textuellen Merkmalen nutzen. Im zweiten Schritt trainieren wir ein Kombinierungsnetzwerk (Combiner), das lernt, die Bild-Text-Merkmale zu kombinieren, dabei die multimodale Information integriert und kombinierte Merkmale erzeugt, die zur Durchführung der Retrieval-Aufgabe verwendet werden. In beiden Trainingsphasen setzen wir kontrastives Lernen ein. Ausgehend von den grundlegenden CLIP-Merkmale als Baseline zeigen die experimentellen Ergebnisse, dass sowohl die auf die Aufgabe zugeschnittene Feinabstimmung als auch das sorgfältig entworfene Combiner-Netzwerk äußerst wirksam sind und gegenüber komplexeren state-of-the-art-Ansätzen auf den beiden populären und anspruchsvollen Datensätzen FashionIQ und CIRR bessere Ergebnisse erzielen. Der Quellcode und vortrainierte Modelle sind unter https://github.com/ABaldrati/CLIP4Cir verfügbar.