PEVL: Positionsgesteigertes Vortraining und Anpassung durch Prompts für Vision-Sprach-Modelle

Vision-Language-Vortraining (VLP) hat beeindruckende Leistungen bei einer Vielzahl von multimodalen Aufgaben gezeigt, wobei VLP-Modelle, die nicht auf Objekterkennungssysteme angewiesen sind, aufgrund ihrer überlegenen Recheneffizienz und wettbewerbsfähigen Leistung zunehmend in den Mittelpunkt rücken. Allerdings führt der Verzicht auf Objekterkennungssysteme auch dazu, dass VLP-Modelle ihre Fähigkeit zur expliziten Objektmodellierung verlieren, was für verschiedene positionsempfindliche Vision-Language-Aufgaben (VL), wie das Verstehen von referierenden Ausdrücken und visuelles allgemeines Wissen, entscheidend ist. Um dieser Herausforderung zu begegnen, stellen wir PEVL vor, eine Methode, die das Vortraining und das Prompt-Tuning von VLP-Modellen durch explizites Modellieren der Objektpositionen verbessert. Insbesondere reformuliert PEVL diskretisierte Objektpositionen und Sprache in einem einheitlichen Sprachmodellierungsrahmen, was während des Vortrainings eine explizite VL-Ausrichtung erleichtert und auch flexibles Prompt-Tuning für verschiedene Downstream-Aufgaben ermöglicht. Wir zeigen, dass PEVL detectorfreie VLP-Modelle bei positionsempfindlichen Aufgaben wie dem Verstehen von referierenden Ausdrücken und Phrasengrundierung auf Stand der Technik bringt und gleichzeitig die Leistung bei positionsunabhängigen Aufgaben mit grundierten Eingaben verbessert. Die Daten und der Code für diese Arbeit sind öffentlich verfügbar unter https://github.com/thunlp/PEVL.