HyperAIHyperAI
vor 18 Tagen

Semantische Bearbeitung erhöht den Nutzen inkrementeller Null-Shot-zusammengesetzter Bildretrieval

{Changsheng Xu, WeiMing Dong, Fan Yang, JiaHong Wu, Dizhan Xue, Shengsheng Qian, Zhenyu Yang}
Abstract

Zero-Shot Composed Image Retrieval (ZS-CIR) hat in den letzten Jahren zunehmend Aufmerksamkeit erhalten und konzentriert sich darauf, ein spezifisches Bild basierend auf einer Abfrage zu finden, die aus einem Referenzbild und einem relativen Text besteht, ohne dass Trainingsbeispiele erforderlich sind. Genauer gesagt beschreibt der relative Text die Unterschiede zwischen den beiden Bildern. Übliche ZS-CIR-Methoden nutzen Bild-zu-Text-(I2T)-Modelle, um das Abfragebild in eine einzelne Beschreibung (Caption) zu transformieren, die anschließend mittels Text-Fusion-Verfahren mit dem relativen Text kombiniert wird, um einen zusammengesetzten Text für die Suche zu erzeugen. Diese Ansätze vernachlässigen jedoch die Tatsache, dass ZS-CIR nicht nur die endgültige Ähnlichkeit zwischen dem zusammengesetzten Text und den abgerufenen Bildern berücksichtigen, sondern auch die semantische Erweiterung während des Kompositionsprozesses. Um diesen Limitationen entgegenzuwirken, schlagen wir eine trainingsfreie Methode namens Semantic Editing Increment for ZS-CIR (SEIZE) vor, die das Zielbild basierend auf dem Referenzbild und dem Text ohne Training ermittelt. Zunächst nutzen wir ein vortrainiertes Captioning-Modell, um vielfältige Beschreibungen für das Referenzbild zu generieren, und stimulieren anschließend Großsprachmodelle (LLMs), mittels breiter Kompositionsreasoning basierend auf diesen Beschreibungen und dem relativen Text vorzugehen, wodurch die potenziellen Semantiken des Zielbildes umfassend abgedeckt werden. Anschließend entwerfen wir eine semantische Bearbeitungssuche, um den semantischen Erweiterungsbeitrag des relativen Textes in den Retrieval-Prozess einzubeziehen. Konkret berücksichtigen wir sowohl die relative semantische Erweiterung als auch die absolute Ähnlichkeit als endgültigen Retrieval-Score, der anschließend im CLIP-Feature-Raum zur Identifizierung des Zielbildes genutzt wird. Umfassende Experimente auf drei öffentlichen Datensätzen zeigen, dass unsere vorgeschlagene SEIZE die neue State-of-the-Art-Leistung erreicht. Der Quellcode ist öffentlich unter https://github.com/yzy-bupt/SEIZE verfügbar.

Semantische Bearbeitung erhöht den Nutzen inkrementeller Null-Shot-zusammengesetzter Bildretrieval | Neueste Forschungsarbeiten | HyperAI