Bedingte und zusammengesetzte Bildretrieval-Methoden, die CLIP-basierte Merkmale kombinieren und teilweise feinabstimmen
{Alberto del Bimbo Tiberio Uricchio Marco Bertini Alberto Baldrati}

Abstract
In diesem Paper präsentieren wir einen Ansatz für bedingte und zusammengesetzte Bildretrieval-basiert auf CLIP-Features. In dieser Erweiterung des content-based image retrieval (CBIR) wird ein Bild mit einem Text kombiniert, der Informationen über die Benutzerabsichten enthält und für Anwendungsbereiche wie E-Commerce relevant ist. Der vorgeschlagene Ansatz basiert auf einer ersten Trainingsphase, in der eine einfache Kombination von visuellen und textuellen Features genutzt wird, um den CLIP-Text-Encoder zu feinabstimmen. In einer zweiten Trainingsphase lernen wir ein komplexeres Kombinationsnetzwerk, das visuelle und textuelle Features integriert. In beiden Phasen wird kontrastives Lernen eingesetzt. Der vorgeschlagene Ansatz erreicht state-of-the-art-Leistung für bedingtes CBIR auf dem FashionIQ-Datensatz und für zusammengesetztes CBIR auf dem jüngeren CIRR-Datensatz.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| image-retrieval-on-cirr | CLIP4Cir (v2) | (Recall@5+Recall_subset@1)/2: 69.09 |
| image-retrieval-on-fashion-iq | CLIP4Cir (v2) | (Recall@10+Recall@50)/2: 50.03 |
| image-retrieval-on-lasco | CLIP4CIR | Recall@1 (%): 4.01 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.