vor 2 Monaten

Trainingsfreie Zero-Shot Composed Bildsuche durch gewichtete Modalitätsfusion und Ähnlichkeit

Ren-Di Wu; Yu-Yen Lin; Huei-Fang Yang

Abstract

Die Composed Image Retrieval (CIR), die die Abfrage als Kombination eines Referenzbildes und modifizierten Textes formuliert, ist aufgrund ihrer verbesserten Fähigkeit, die Benutzerabsicht zu erfassen, als neue Form der Bildersuche hervorgetreten. Allerdings erfordert das überwachte Training eines CIR-Modells in der Regel eine arbeitsintensive Sammlung von (Referenzbild, Textmodifikator, Zielbild)-Tripletts. Obwohl existierende zero-shot CIR-Methoden (ZS-CIR) das Training auf spezifischen Downstream-Datensätzen eliminieren, benötigen sie immer noch zusätzliche Vortrainingsschritte auf umfangreichen Bilddatensätzen. In dieser Arbeit stellen wir einen trainingsfreien Ansatz für ZS-CIR vor. Unser Ansatz, Gewichtete Modalitätsfusion und Ähnlichkeit für CIR (WeiMoCIR), basiert auf der Annahme, dass Bild- und Textmodalitäten effektiv durch eine einfache gewichtete Mittelung kombiniert werden können. Dies ermöglicht es, die Abfragendarstellung direkt aus dem Referenzbild und dem Textmodifikator zu konstruieren. Um die Retrieval-Leistung weiter zu verbessern, verwenden wir multimodale große Sprachmodelle (MLLMs), um Bildunterschriften für die Datenbankbilder zu generieren, und integrieren diese textuellen Unterschriften in die Ähnlichkeitsberechnung, indem wir sie mit den Bildinformationen durch eine gewichtete Mittelung kombinieren. Unser Ansatz ist einfach, leicht umzusetzen und seine Effektivität wird durch Experimente auf den Datensätzen FashionIQ und CIRR bestätigt. Der Quellcode ist unter https://github.com/whats2000/WeiMoCIR verfügbar.