Tiefstruktur-bewahrende Bild-Text-Embeddings lernen

Dieses Papier schlägt eine Methode zur gemeinsamen Einbettung von Bildern und Texten vor, die ein zweigängiges neuronales Netzwerk mit mehreren Schichten linearer Projektionen und anschließenden Nichtlinearitäten verwendet. Das Netzwerk wird unter Verwendung eines großen Marginalobjektivs trainiert, das Queransicht-Rangfolgebedingungen (cross-view ranking constraints) mit inneransichtlichen Nachbarschaftsstruktur-Erhaltungsbedingungen kombiniert, die sich aus der metrischen Lernliteratur ableiten. Umfangreiche Experimente zeigen, dass unser Ansatz erhebliche Verbesserungen in der Genauigkeit für die Bild-zu-Text- und Text-zu-Bild-Retrieval erreicht. Unsere Methode erzielt neue Stand der Technik-Ergebnisse auf den Flickr30K- und MSCOCO-Bild-Satz-Datensätzen und zeigt Potenzial bei der neuen Aufgabe der Phrasenlokalisation auf dem Flickr30K Entities-Datensatz.