Mehrstufiger multimodaler gemeinsamer semantischer Raum für die Verankerung von Bild-Textpaaren

Wir adressieren das Problem der Phrase-Grounding, indem wir einen mehrstufigen gemeinsamen semantischen Raum erlernen, der von den textuellen und visuellen Modalitäten geteilt wird. Wir nutzen mehrere Ebenen von Feature Maps eines tiefen Faltungsneuronalen Netzes sowie kontextualisierte Wort- und Satz-Embeddings, die aus einem zeichenbasierten Sprachmodell extrahiert werden. Nach speziellen nichtlinearen Abbildungen für die visuellen Features auf jeder Ebene sowie für die Wort- und Satz-Embeddings erhalten wir mehrere Instanzen unseres gemeinsamen semantischen Raums, in denen Vergleiche zwischen jedem Zieltext und dem visuellen Inhalt mit Hilfe des Cosinusähnlichkeitsmaßes durchgeführt werden. Wir leiten das Modell durch ein mehrstufiges multimodales Aufmerksamheitsmechanismus, der auf jeder Ebene aufmerksamkeitsgesteuerte visuelle Features ausgibt. Die beste Ebene wird ausgewählt, um sie mit dem textuellen Inhalt zu vergleichen und die Relevanzbewertungen der Bild-Satz-Paare der Grundwahrheit zu maximieren. Experimente anhand dreier öffentlich zugänglicher Datensätze zeigen signifikante Leistungssteigerungen (20%-60% relativ) im Vergleich zum Stand der Technik bei der Phrase-Lokalisierung und setzen neue Leistungsschranken für diese Datensätze. Wir führen eine detaillierte Ablationsstudie durch, um den Beitrag jedes Elements unserer Methode zu verdeutlichen, und stellen unseren Code auf GitHub zur Verfügung.