HyperAIHyperAI
vor 17 Tagen

Zielgerichtete zusammengesetzte Bildretrieval

Haokun Wen, Xian Zhang, Xuemeng Song, Yinwei Wei, Liqiang Nie
Zielgerichtete zusammengesetzte Bildretrieval
Abstract

Composed Image Retrieval (CIR) ist ein neuartiges und flexibles Paradigma für die Bildretrieval-Aufgabe, das es ermöglicht, das Zielbild einer multimodalen Abfrage zu finden, welche aus einem Referenzbild und dem entsprechenden Modifikationstext besteht. Obwohl bestehende Ansätze beachtliche Fortschritte erzielt haben, vernachlässigen sie zwei zentrale Aspekte: die Modellierung der Konflikthandlung zwischen dem Referenzbild und dem Modifikationstext zur Verbesserung der Zusammensetzung der multimodalen Abfrage sowie die adaptive Modellierung des Übereinstimmungsgrades zur Förderung der Rangfolge der Kandidatenbilder, die unterschiedliche Grade an Übereinstimmung mit der gegebenen Abfrage aufweisen können. Um diese beiden Limitationen zu überwinden, schlagen wir in dieser Arbeit ein Target-Guided Composed Image Retrieval-Netzwerk (TG-CIR) vor. Insbesondere extrahiert TG-CIR zunächst einheitliche globale und lokale Attributmerkmale sowohl für das Referenz-/Zielbild als auch für den Modifikationstext mittels eines Kontrastiv-Training-Modells aus Sprache und Bild (Contrastive Language-Image Pre-training, CLIP) als Backbone-Architektur. Dabei wird eine orthogonale Regularisierung eingeführt, um die Unabhängigkeit der Merkmale untereinander zu fördern. Anschließend entwirft TG-CIR einen multimodalen Abfragzusammensetzungsmodul, der durch eine zielunabhängige Student-Zusammensetzungsbranch und eine zielbasierte Teacher-Zusammensetzungsbranch geprägt ist, wobei die Beziehung zwischen Ziel und Abfrage in die Teacher-Branch integriert wird, um die Modellierung der Konflikthandlung in der Student-Branch zu leiten. Schließlich führt TG-CIR neben dem herkömmlichen batch-basierten Klassifikationsverlust zusätzlich eine batch-basierte, zielähnlichkeitsgeleitete Regularisierung des Übereinstimmungsgrades ein, um den Prozess der Metrik-Lernung zu verbessern. Umfassende Experimente auf drei Benchmark-Datensätzen belegen die Überlegenheit des vorgeschlagenen Ansatzes.