Kandidatenmenge Neuaufstellung für zusammengesetzte Bildsuche mit dualen multimodalen Encodern

Die composable Bildsuche (composed image retrieval) zielt darauf ab, ein Bild zu finden, das am besten einem gegebenen multimodalen Benutzeranfrage entspricht, die aus einem Referenzbild und einem Textpaar besteht. Bestehende Methoden berechnen in der Regel voraus die Bildrepräsentationen über den gesamten Korpus und vergleichen diese mit einer durch den Abfragetext modifizierten Referenzbildrepräsentation zur Testzeit. Solch eine Pipeline ist während des Tests sehr effizient, da schnelle Vektordistanzen verwendet werden können, um Kandidaten zu bewerten. Allerdings kann es schwierig sein, die Referenzbildrepräsentation nur auf Basis einer kurzen textuellen Beschreibung zu modifizieren, insbesondere unabhängig von potenziellen Kandidaten. Ein alternativer Ansatz ermöglicht Interaktionen zwischen der Abfrage und jedem möglichen Kandidaten, d.h., Tripletten aus Referenz-Text-Kandidat, und wählt den besten aus der gesamten Menge aus. Obwohl dieser Ansatz diskriminativer ist, sind die Rechenkosten für große Datensätze verboten hoch, da die Vorabrechnung der Kandidatenrepräsentationen nicht mehr möglich ist. Wir schlagen vor, die Vorteile beider Verfahren mithilfe eines zweistufigen Modells zu kombinieren. In unserer ersten Stufe wird das herkömmliche Vektordistanzmaß angewendet und eine schnelle Reduzierung der Kandidaten durchgeführt. Gleichzeitig verwendet unsere zweite Stufe eine Dual-Encoder-Architektur, die effektiv auf das Eingabetriplett aus Referenz-Text-Kandidat achtet und die Kandidaten neu ordnet. Beide Stufen nutzen ein visuell-sprachliches vortrainiertes Netzwerk (vision-and-language pre-trained network), das sich als nützlich für verschiedene Downstream-Tasks erwiesen hat. Unsere Methode erzielt konstant bessere Ergebnisse als state-of-the-art-Ansätze bei Standard-Benchmarks für diese Aufgabe. Unsere Implementierung ist unter https://github.com/Cuberick-Orion/Candidate-Reranking-CIR verfügbar.