HyperAIHyperAI

Command Palette

Search for a command to run...

Kandidatenmenge Neuaufstellung für zusammengesetzte Bildsuche mit dualen multimodalen Encodern

Liu Zheyuan ; Sun Weixuan ; Teney Damien ; Gould Stephen

Zusammenfassung

Die composable Bildsuche (composed image retrieval) zielt darauf ab, ein Bild zu finden, das am besten einem gegebenen multimodalen Benutzeranfrage entspricht, die aus einem Referenzbild und einem Textpaar besteht. Bestehende Methoden berechnen in der Regel voraus die Bildrepräsentationen über den gesamten Korpus und vergleichen diese mit einer durch den Abfragetext modifizierten Referenzbildrepräsentation zur Testzeit. Solch eine Pipeline ist während des Tests sehr effizient, da schnelle Vektordistanzen verwendet werden können, um Kandidaten zu bewerten. Allerdings kann es schwierig sein, die Referenzbildrepräsentation nur auf Basis einer kurzen textuellen Beschreibung zu modifizieren, insbesondere unabhängig von potenziellen Kandidaten. Ein alternativer Ansatz ermöglicht Interaktionen zwischen der Abfrage und jedem möglichen Kandidaten, d.h., Tripletten aus Referenz-Text-Kandidat, und wählt den besten aus der gesamten Menge aus. Obwohl dieser Ansatz diskriminativer ist, sind die Rechenkosten für große Datensätze verboten hoch, da die Vorabrechnung der Kandidatenrepräsentationen nicht mehr möglich ist. Wir schlagen vor, die Vorteile beider Verfahren mithilfe eines zweistufigen Modells zu kombinieren. In unserer ersten Stufe wird das herkömmliche Vektordistanzmaß angewendet und eine schnelle Reduzierung der Kandidaten durchgeführt. Gleichzeitig verwendet unsere zweite Stufe eine Dual-Encoder-Architektur, die effektiv auf das Eingabetriplett aus Referenz-Text-Kandidat achtet und die Kandidaten neu ordnet. Beide Stufen nutzen ein visuell-sprachliches vortrainiertes Netzwerk (vision-and-language pre-trained network), das sich als nützlich für verschiedene Downstream-Tasks erwiesen hat. Unsere Methode erzielt konstant bessere Ergebnisse als state-of-the-art-Ansätze bei Standard-Benchmarks für diese Aufgabe. Unsere Implementierung ist unter https://github.com/Cuberick-Orion/Candidate-Reranking-CIR verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp