HyperAIHyperAI
vor 15 Tagen

Deep Cross-Modal Projection Learning for Image-Text Matching

{Huchuan Lu, Ying Zhang}
Deep Cross-Modal Projection Learning for Image-Text Matching
Abstract

Der zentrale Aspekt der Bild-Text-Übereinstimmung liegt darin, die Ähnlichkeit zwischen visuellen und textuellen Eingaben präzise zu messen. Trotz der erheblichen Fortschritte bei der Verknüpfung tiefer, multimodaler Embeddings mittels bidirektionaler Ranking-Verlustfunktion bleibt die Entwicklung von Strategien zur Identifizierung nützlicher Tripel und die Auswahl geeigneter Margin-Werte in praktischen Anwendungen eine Herausforderung. In diesem Paper stellen wir eine cross-modal projection matching (CMPM)-Verlustfunktion und eine cross-modal projection classification (CMPC)-Verlustfunktion vor, um diskriminative Bild-Text-Embeddings zu lernen. Die CMPM-Verlustfunktion minimiert die KL-Divergenz zwischen den Projektionskompatibilitätsverteilungen und den normalisierten Übereinstimmungsverteilungen, die auf Basis aller positiven und negativen Beispiele innerhalb eines Mini-Batches definiert sind. Die CMPC-Verlustfunktion versucht, die Vektorprojektionen von Darstellungen einer Modality auf die andere mittels einer verbesserten Norm-Softmax-Verlustfunktion zu klassifizieren, um die Merkmalskompaktheit jeder Klasse weiter zu steigern. Umfangreiche Analysen und Experimente auf mehreren Datensätzen belegen die Überlegenheit des vorgeschlagenen Ansatzes.

Deep Cross-Modal Projection Learning for Image-Text Matching | Neueste Forschungsarbeiten | HyperAI