HyperAIHyperAI

Command Palette

Search for a command to run...

PEVL: Positionsgesteigertes Vortraining und Anpassung durch Prompts für Vision-Sprach-Modelle

Yuan Yao Qianyu Chen Ao Zhang Wei Ji Zhiyuan Liu Tat-Seng Chua Maosong Sun

Zusammenfassung

Vision-Language-Vortraining (VLP) hat beeindruckende Leistungen bei einer Vielzahl von multimodalen Aufgaben gezeigt, wobei VLP-Modelle, die nicht auf Objekterkennungssysteme angewiesen sind, aufgrund ihrer überlegenen Recheneffizienz und wettbewerbsfähigen Leistung zunehmend in den Mittelpunkt rücken. Allerdings führt der Verzicht auf Objekterkennungssysteme auch dazu, dass VLP-Modelle ihre Fähigkeit zur expliziten Objektmodellierung verlieren, was für verschiedene positionsempfindliche Vision-Language-Aufgaben (VL), wie das Verstehen von referierenden Ausdrücken und visuelles allgemeines Wissen, entscheidend ist. Um dieser Herausforderung zu begegnen, stellen wir PEVL vor, eine Methode, die das Vortraining und das Prompt-Tuning von VLP-Modellen durch explizites Modellieren der Objektpositionen verbessert. Insbesondere reformuliert PEVL diskretisierte Objektpositionen und Sprache in einem einheitlichen Sprachmodellierungsrahmen, was während des Vortrainings eine explizite VL-Ausrichtung erleichtert und auch flexibles Prompt-Tuning für verschiedene Downstream-Aufgaben ermöglicht. Wir zeigen, dass PEVL detectorfreie VLP-Modelle bei positionsempfindlichen Aufgaben wie dem Verstehen von referierenden Ausdrücken und Phrasengrundierung auf Stand der Technik bringt und gleichzeitig die Leistung bei positionsunabhängigen Aufgaben mit grundierten Eingaben verbessert. Die Daten und der Code für diese Arbeit sind öffentlich verfügbar unter https://github.com/thunlp/PEVL.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp