Command Palette
Search for a command to run...
Tiefstruktur-bewahrende Bild-Text-Embeddings lernen
Tiefstruktur-bewahrende Bild-Text-Embeddings lernen
Liwei Wang* [email protected] Yin Li† [email protected] Svetlana Lazebnik* [email protected]
Zusammenfassung
Dieses Papier schlägt eine Methode zur gemeinsamen Einbettung von Bildern und Texten vor, die ein zweigängiges neuronales Netzwerk mit mehreren Schichten linearer Projektionen und anschließenden Nichtlinearitäten verwendet. Das Netzwerk wird unter Verwendung eines großen Marginalobjektivs trainiert, das Queransicht-Rangfolgebedingungen (cross-view ranking constraints) mit inneransichtlichen Nachbarschaftsstruktur-Erhaltungsbedingungen kombiniert, die sich aus der metrischen Lernliteratur ableiten. Umfangreiche Experimente zeigen, dass unser Ansatz erhebliche Verbesserungen in der Genauigkeit für die Bild-zu-Text- und Text-zu-Bild-Retrieval erreicht. Unsere Methode erzielt neue Stand der Technik-Ergebnisse auf den Flickr30K- und MSCOCO-Bild-Satz-Datensätzen und zeigt Potenzial bei der neuen Aufgabe der Phrasenlokalisation auf dem Flickr30K Entities-Datensatz.