HyperAIHyperAI
vor 17 Tagen

CaLa: Komplementäre Assoziationslernmethode zur Verbesserung der zusammengesetzten Bildretrieval

Xintong Jiang, Yaxiong Wang, Mengjian Li, Yujiao Wu, Bingwen Hu, Xueming Qian
CaLa: Komplementäre Assoziationslernmethode zur Verbesserung der zusammengesetzten Bildretrieval
Abstract

Composed Image Retrieval (CIR) beinhaltet die Suche nach Zielbildern basierend auf einer Abfrage aus Bild-Text-Paar. Während aktuelle Methoden dieses Problem als Abfrage-Ziel-Zuordnung betrachten, argumentieren wir, dass CIR-Tripel zusätzliche Beziehungen über diese primäre Relation hinaus enthalten. In unserer Arbeit identifizieren wir zwei neue Beziehungen innerhalb von Tripeln und behandeln jedes Tripel als Knoten in einem Graphen. Erstens führen wir den Begriff der textgestützten Bildalignment ein, bei dem der Abfragetext als Brücke zwischen dem Abfragebild und dem Zielbild fungiert. Wir schlagen eine hinge-basierte Kreuz-Attention-Mechanismus vor, um diese Beziehung in das Netzwerklernen einzubinden. Zweitens untersuchen wir komplementäre Textschlussfolgerung, wobei CIR als Form der cross-modalen Retrieval betrachtet wird, bei der zwei Bilder zusammenwirken, um komplementäre Textinformationen zu erschließen. Um diese Perspektiven effektiv zu integrieren, entwerfen wir einen Twin-Attention-basierten Compositor. Durch die Kombination dieser komplementären Beziehungen mit der expliziten Abfrage-Paar-Zielbild-Beziehung etablieren wir ein umfassendes System von Einschränkungen für CIR. Unser Framework, CaLa (Complementary Association Learning for Augmenting Composed Image Retrieval), nutzt diese Erkenntnisse. Wir evaluieren CaLa anhand der CIRR- und FashionIQ-Benchmarks mit mehreren Backbone-Architekturen und zeigen dessen Überlegenheit im Bereich des composed image retrieval.