HyperAIHyperAI
vor 15 Tagen

NAPReg: Nomen als Proxy-Regularisierung für semantisch bewusste cross-modale Embeddings

{Venu Govindaraju, Srirangaraj Setlur, Naji Mohamed Ali, Deen Dayal Mohan, Bhavin Jawade}
NAPReg: Nomen als Proxy-Regularisierung für semantisch bewusste cross-modale Embeddings
Abstract

Cross-modal Retrieval ist eine grundlegende Aufgabe im Bereich Vision-Sprache mit einer Vielzahl praktischer Anwendungen. Die Text-zu-Bild-Abbildung stellt die häufigste Form des Cross-modal Retrieval dar, bei der gegeben eine große Datenbank an Bildern und eine textuelle Abfrage die Aufgabe besteht, die relevantesten Bilder zu identifizieren. Bestehende Methoden nutzen Dual-Encoder-Architekturen mit einer Aufmerksamkeitsmechanik und einer Ranking-Verlustfunktion, um Embeddings zu lernen, die zur Recherche auf Basis der Kosinus-Ähnlichkeit verwendet werden können. Obwohl diese Ansätze versuchen, eine semantische Ausrichtung zwischen visuellen Regionen und textuellen Wörtern mittels maßgeschneiderter Aufmerksamkeitsmechanismen herzustellen, existiert kein expliziter Trainingsziel, der eine solche Ausrichtung erzwingt. Um dieses Problem zu lösen, schlagen wir NAPReg vor – eine neuartige Regularisierungsformulierung, die hochlevelle semantische Entitäten, genauer gesagt Substantive (Nouns), in den Embedding-Raum als gemeinsam lernbare Proxy-Elemente projiziert. Wir zeigen, dass diese Formulierung es dem Aufmerksamkeitsmechanismus ermöglicht, eine verbesserte Wort-Region-Ausrichtung zu erlernen, während gleichzeitig Informationen aus anderen Bildern genutzt werden, um eine allgemeinere latente Darstellung semantischer Konzepte zu bilden. Experimente auf drei Standard-Datensätzen – MS-COCO, Flickr30k und Flickr8k – belegen, dass unsere Methode state-of-the-art Ergebnisse im Bereich der cross-modal Metrik-Learning für Text-Bild- und Bild-Text-Abfrageaufgaben erzielt. Code: https://github.com/bhavinjawade/NAPReq

NAPReg: Nomen als Proxy-Regularisierung für semantisch bewusste cross-modale Embeddings | Neueste Forschungsarbeiten | HyperAI