vor 17 Tagen

Rangbewusste Unsicherheit für textgesteuerte Bildretrieval

Junyang Chen, Hanjiang Lai

Abstract

Textgestützte Bildretrieval zielt darauf ab, bedingte Textinformationen einzubinden, um die Absicht der Nutzer präziser zu erfassen. Traditionell konzentrieren sich bestehende Methoden darauf, die Embedding-Distanzen zwischen den Quell-Eingaben und dem Zielbild zu minimieren, wobei die bereitgestellten Tripel $\langle$Quellbild, Quelltext, Zielbild$\rangle$ verwendet werden. Allerdings kann eine solche Tripel-Optimierung das gelernte Retrieval-Modell daran hindern, detailliertere Ranginformationen zu erfassen, beispielsweise weil die Tripel eine ein-zu-eins-Beziehung darstellen und somit viele-zu-viele-Beziehungen, die sich aus der semantischen Vielfalt in Rückmeldungen sowohl im Text als auch in Bildern ergeben, nicht berücksichtigen können. Um mehr Ranginformation zu erfassen, schlagen wir einen neuartigen, auf Ranginformationen ausgerichteten Unsicherheitsansatz vor, der viele-zu-viele-Beziehungen allein anhand der bereitgestellten Tripel modelliert. Wir integrieren Unsicherheitslernverfahren, um stochastische Ranglisten von Merkmalen zu lernen. Konkret besteht unser Ansatz aus drei Hauptkomponenten: (1) In-Sample-Unsicherheit, die darauf abzielt, die semantische Vielfalt mithilfe einer Gauss-Verteilung zu erfassen, die sowohl aus kombinierten als auch aus Zielmerkmalen abgeleitet wird; (2) Cross-Sample-Unsicherheit, die zusätzliche Ranginformationen aus den Verteilungen anderer Beispiele ausgräbt; und (3) Verteilungsregularisierung, die die verteilungsbasierten Darstellungen der Quell-Eingaben und des Zielbildes ausrichtet. Im Vergleich zu bestehenden state-of-the-art-Methoden erzielt unser vorgeschlagener Ansatz signifikante Ergebnisse auf zwei öffentlichen Datensätzen für zusammengesetzte Bildretrieval-Aufgaben.