HyperAIHyperAI

Command Palette

Search for a command to run...

Tiefstruktur-bewahrende Bild-Text-Embeddings lernen

Liwei Wang* [email protected] Yin Li† [email protected] Svetlana Lazebnik* [email protected]

Zusammenfassung

Dieses Papier schlägt eine Methode zur gemeinsamen Einbettung von Bildern und Texten vor, die ein zweigängiges neuronales Netzwerk mit mehreren Schichten linearer Projektionen und anschließenden Nichtlinearitäten verwendet. Das Netzwerk wird unter Verwendung eines großen Marginalobjektivs trainiert, das Queransicht-Rangfolgebedingungen (cross-view ranking constraints) mit inneransichtlichen Nachbarschaftsstruktur-Erhaltungsbedingungen kombiniert, die sich aus der metrischen Lernliteratur ableiten. Umfangreiche Experimente zeigen, dass unser Ansatz erhebliche Verbesserungen in der Genauigkeit für die Bild-zu-Text- und Text-zu-Bild-Retrieval erreicht. Unsere Methode erzielt neue Stand der Technik-Ergebnisse auf den Flickr30K- und MSCOCO-Bild-Satz-Datensätzen und zeigt Potenzial bei der neuen Aufgabe der Phrasenlokalisation auf dem Flickr30K Entities-Datensatz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp