Command Palette
Search for a command to run...
Bedingte und zusammengesetzte Bildretrieval-Methoden, die CLIP-basierte Merkmale kombinieren und teilweise feinabstimmen
Bedingte und zusammengesetzte Bildretrieval-Methoden, die CLIP-basierte Merkmale kombinieren und teilweise feinabstimmen
Alberto del Bimbo Tiberio Uricchio Marco Bertini Alberto Baldrati
Zusammenfassung
In diesem Paper präsentieren wir einen Ansatz für bedingte und zusammengesetzte Bildretrieval-basiert auf CLIP-Features. In dieser Erweiterung des content-based image retrieval (CBIR) wird ein Bild mit einem Text kombiniert, der Informationen über die Benutzerabsichten enthält und für Anwendungsbereiche wie E-Commerce relevant ist. Der vorgeschlagene Ansatz basiert auf einer ersten Trainingsphase, in der eine einfache Kombination von visuellen und textuellen Features genutzt wird, um den CLIP-Text-Encoder zu feinabstimmen. In einer zweiten Trainingsphase lernen wir ein komplexeres Kombinationsnetzwerk, das visuelle und textuelle Features integriert. In beiden Phasen wird kontrastives Lernen eingesetzt. Der vorgeschlagene Ansatz erreicht state-of-the-art-Leistung für bedingtes CBIR auf dem FashionIQ-Datensatz und für zusammengesetztes CBIR auf dem jüngeren CIRR-Datensatz.