HyperAIHyperAI

Command Palette

Search for a command to run...

Unicoder-VL: Ein universeller Encoder für Vision und Sprache durch kreuzmodales Vortraining

Gen Li; Nan Duan; Yuejian Fang; Ming Gong; Daxin Jiang; Ming Zhou

Zusammenfassung

Wir schlagen Unicoder-VL vor, einen universellen Encoder, der darauf abzielt, gemeinsame Repräsentationen von Vision und Sprache in einem prätrainierten Verfahren zu erlernen. Inspiriert von cross-lingualen prätrainierten Modellen wie XLM und Unicoder werden sowohl visuelle als auch sprachliche Inhalte in ein mehrschichtiges Transformer-Modell für das cross-modale Prätraining eingegeben, wobei drei Prätraining-Aufgaben verwendet werden: Masked Language Modeling (MLM), Masked Object Classification (MOC) und Visual-linguistic Matching (VLM). Die ersten beiden Aufgaben lernen kontextsensitive Repräsentationen für die Eingabetoken auf Basis von sprachlichen und visuellen Inhalten gemeinsam. Die letzte Aufgabe versucht vorherzusagen, ob ein Bild und ein Text sich gegenseitig beschreiben. Nach dem Prätraining auf großen Mengen von Bild-Beschreibungspaaren übertragen wir Unicoder-VL auf bildbasierte Text-Bild-Retrieval und visuelle Alltagsverstandesfähigkeit mit nur einer zusätzlichen Ausgabeschicht. Wir erzielen state-of-the-art oder vergleichbare Ergebnisse in beiden Aufgaben und zeigen die leistungsstarke Fähigkeit des cross-modalen Prätrainings.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp