HyperAIHyperAI

Command Palette

Search for a command to run...

Rangbewusste Unsicherheit für textgesteuerte Bildretrieval

Junyang Chen Hanjiang Lai

Zusammenfassung

Textgestützte Bildretrieval zielt darauf ab, bedingte Textinformationen einzubinden, um die Absicht der Nutzer präziser zu erfassen. Traditionell konzentrieren sich bestehende Methoden darauf, die Embedding-Distanzen zwischen den Quell-Eingaben und dem Zielbild zu minimieren, wobei die bereitgestellten Tripel \langleQuellbild, Quelltext, Zielbild\rangle verwendet werden. Allerdings kann eine solche Tripel-Optimierung das gelernte Retrieval-Modell daran hindern, detailliertere Ranginformationen zu erfassen, beispielsweise weil die Tripel eine ein-zu-eins-Beziehung darstellen und somit viele-zu-viele-Beziehungen, die sich aus der semantischen Vielfalt in Rückmeldungen sowohl im Text als auch in Bildern ergeben, nicht berücksichtigen können. Um mehr Ranginformation zu erfassen, schlagen wir einen neuartigen, auf Ranginformationen ausgerichteten Unsicherheitsansatz vor, der viele-zu-viele-Beziehungen allein anhand der bereitgestellten Tripel modelliert. Wir integrieren Unsicherheitslernverfahren, um stochastische Ranglisten von Merkmalen zu lernen. Konkret besteht unser Ansatz aus drei Hauptkomponenten: (1) In-Sample-Unsicherheit, die darauf abzielt, die semantische Vielfalt mithilfe einer Gauss-Verteilung zu erfassen, die sowohl aus kombinierten als auch aus Zielmerkmalen abgeleitet wird; (2) Cross-Sample-Unsicherheit, die zusätzliche Ranginformationen aus den Verteilungen anderer Beispiele ausgräbt; und (3) Verteilungsregularisierung, die die verteilungsbasierten Darstellungen der Quell-Eingaben und des Zielbildes ausrichtet. Im Vergleich zu bestehenden state-of-the-art-Methoden erzielt unser vorgeschlagener Ansatz signifikante Ergebnisse auf zwei öffentlichen Datensätzen für zusammengesetzte Bildretrieval-Aufgaben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp