HyperAIHyperAI

Command Palette

Search for a command to run...

Deep Cross-Modal Projection Learning for Image-Text Matching

Huchuan Lu Ying Zhang

Zusammenfassung

Der zentrale Aspekt der Bild-Text-Übereinstimmung liegt darin, die Ähnlichkeit zwischen visuellen und textuellen Eingaben präzise zu messen. Trotz der erheblichen Fortschritte bei der Verknüpfung tiefer, multimodaler Embeddings mittels bidirektionaler Ranking-Verlustfunktion bleibt die Entwicklung von Strategien zur Identifizierung nützlicher Tripel und die Auswahl geeigneter Margin-Werte in praktischen Anwendungen eine Herausforderung. In diesem Paper stellen wir eine cross-modal projection matching (CMPM)-Verlustfunktion und eine cross-modal projection classification (CMPC)-Verlustfunktion vor, um diskriminative Bild-Text-Embeddings zu lernen. Die CMPM-Verlustfunktion minimiert die KL-Divergenz zwischen den Projektionskompatibilitätsverteilungen und den normalisierten Übereinstimmungsverteilungen, die auf Basis aller positiven und negativen Beispiele innerhalb eines Mini-Batches definiert sind. Die CMPC-Verlustfunktion versucht, die Vektorprojektionen von Darstellungen einer Modality auf die andere mittels einer verbesserten Norm-Softmax-Verlustfunktion zu klassifizieren, um die Merkmalskompaktheit jeder Klasse weiter zu steigern. Umfangreiche Analysen und Experimente auf mehreren Datensätzen belegen die Überlegenheit des vorgeschlagenen Ansatzes.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp