HyperAIHyperAI

Command Palette

Search for a command to run...

Trainingsfreie Zero-Shot Composed Bildsuche durch gewichtete Modalitätsfusion und Ähnlichkeit

Ren-Di Wu; Yu-Yen Lin; Huei-Fang Yang

Zusammenfassung

Die Composed Image Retrieval (CIR), die die Abfrage als Kombination eines Referenzbildes und modifizierten Textes formuliert, ist aufgrund ihrer verbesserten Fähigkeit, die Benutzerabsicht zu erfassen, als neue Form der Bildersuche hervorgetreten. Allerdings erfordert das überwachte Training eines CIR-Modells in der Regel eine arbeitsintensive Sammlung von (Referenzbild, Textmodifikator, Zielbild)-Tripletts. Obwohl existierende zero-shot CIR-Methoden (ZS-CIR) das Training auf spezifischen Downstream-Datensätzen eliminieren, benötigen sie immer noch zusätzliche Vortrainingsschritte auf umfangreichen Bilddatensätzen. In dieser Arbeit stellen wir einen trainingsfreien Ansatz für ZS-CIR vor. Unser Ansatz, Gewichtete Modalitätsfusion und Ähnlichkeit für CIR (WeiMoCIR), basiert auf der Annahme, dass Bild- und Textmodalitäten effektiv durch eine einfache gewichtete Mittelung kombiniert werden können. Dies ermöglicht es, die Abfragendarstellung direkt aus dem Referenzbild und dem Textmodifikator zu konstruieren. Um die Retrieval-Leistung weiter zu verbessern, verwenden wir multimodale große Sprachmodelle (MLLMs), um Bildunterschriften für die Datenbankbilder zu generieren, und integrieren diese textuellen Unterschriften in die Ähnlichkeitsberechnung, indem wir sie mit den Bildinformationen durch eine gewichtete Mittelung kombinieren. Unser Ansatz ist einfach, leicht umzusetzen und seine Effektivität wird durch Experimente auf den Datensätzen FashionIQ und CIRR bestätigt. Der Quellcode ist unter https://github.com/whats2000/WeiMoCIR verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Trainingsfreie Zero-Shot Composed Bildsuche durch gewichtete Modalitätsfusion und Ähnlichkeit | Paper | HyperAI