HyperAIHyperAI

Command Palette

Search for a command to run...

Aus dem Kasten schauen: End-to-End-Vorstufe für die Vision-Sprache-Repräsentationslernung

Zhicheng Huang Zhaoyang Zeng Yupan Huang Bei Liu Dongmei Fu Jianlong Fu

Zusammenfassung

Wir untersuchen die gemeinsame Lernung von Convolutional Neural Networks (CNN) und Transformers für Vision-Language-Pre-Training (VLPT), das darauf abzielt, durch Millionen von Bild-Text-Paaren Quermodale Alignment zu erlernen. Moderne Ansätze extrahieren auffällige Bildregionen und alignen diese schrittweise mit Wörtern. Da regionenbasierte visuelle Merkmale in der Regel Teile eines Bildes repräsentieren, ist es für bestehende Vision-Language-Modelle herausfordernd, die Semantik aus gepaarten natürlichen Sprachbeschreibungen vollständig zu erfassen. In diesem Artikel stellen wir SOHO vor, das „See Out of tHe bOx“ bedeutet und ein gesamtes Bild als Eingabe nimmt und gleichzeitig vision-sprachliche Repräsentationen end-to-end lernt. SOHO benötigt keine Bounding-Box-Anmerkungen und ermöglicht dadurch eine Inferenz, die zehnmal schneller ist als bei regionenbasierten Ansätzen. Insbesondere lernt SOHO durch einen visuellen Wörterbuch (Visual Dictionary, VD) umfassende, aber kompakte Bildmerkmale zu extrahieren, was die Quermodale Verständnis fördert. Der VD ist so entworfen, konsistente visuelle Abstraktionen ähnlicher Semantik darzustellen. Er wird dynamisch aktualisiert und in unserer vorgeschlagenen Pre-Training-Aufgabe Masked Visual Modeling (MVM) genutzt. Wir führen Experimente auf vier etablierten Vision-Language-Aufgaben unter Verwendung standardisierter VLPT-Einstellungen durch. Insbesondere erreicht SOHO absolute Verbesserungen von 2,0 % im R@1-Score beim Text-Abfrage-Testsplit MSCOCO 5k, 1,5 % Genauigkeit beim NLVR2^22 Test-P-Split und 6,7 % Genauigkeit beim SNLI-VE-Testsplit.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Aus dem Kasten schauen: End-to-End-Vorstufe für die Vision-Sprache-Repräsentationslernung | Paper | HyperAI