Positionsgeführte Textanweisung für die visuelle-linguistische Vorabausbildung

Vision-Language Pre-Training (VLP) hat vielversprechende Fähigkeiten gezeigt, um Bild-Text-Paare zu alignen und eine breite Palette von multimodalen Lernaufgaben zu erleichtern. Allerdings beobachten wir, dass VLP-Modelle oft die visuelle Verankerung/Localisierungsfähigkeit fehlen, die für viele nachgelagerte Aufgaben wie visuelles Schließen entscheidend ist. In dieser Arbeit schlagen wir ein neues Paradigma des positionsgesteuerten Textprompts (PTP) vor, um die visuelle Verankerungsfähigkeit von mit VLP trainierten multimodalen Modellen zu verbessern. Insbesondere wird im VLP-Phasen PTP das Bild in $N \times N$ Blöcke unterteilt und verwendet den in VLP weit verbreiteten Objekterkennungsalgorithmus, um die Objekte in jedem Block zu identifizieren. Es reformuliert dann die Aufgabe der visuellen Verankerung als ein Lückenfüllproblem bei gegebenem PTP, indem es das Modell dazu anregt, die Objekte in den gegebenen Blöcken vorherzusagen oder die Blöcke eines gegebenen Objekts zu regredieren, z.B. durch das Ausfüllen von „P“ oder „O“ in einem PTP „Der Block P enthält ein O“. Dieser Mechanismus verbessert die visuelle Verankerungsfähigkeit von VLP-Modellen und hilft ihnen somit, verschiedene nachgelagerte Aufgaben besser zu bewältigen. Durch die Einführung von PTP in mehrere state-of-the-art VLP-Frameworks beobachten wir konsistente und erhebliche Verbesserungen sowohl bei repräsentativen multimodalen Modellarchitekturen als auch bei mehreren Benchmarks, z.B. bei der zero-shot Flickr30K-Retrieval (+4,8 im durchschnittlichen Recall@1) für das ViLT-Basismodell \cite{vilt} und bei der COCO-Captioning (+5,3 im CIDEr-Score) für das SOTA BLIP-Basismodell \cite{blip}. Darüber hinaus erreicht PTP vergleichbare Ergebnisse mit objekterkennungsbasierenden Methoden und weist eine viel schnellere Inferenzgeschwindigkeit auf, da PTP seinen Objekterkennungsalgorithmus für die Inferenz verwirft, während dies bei letzteren nicht der Fall ist. Unser Code und unsere vortrainierten Gewichte werden veröffentlicht unter \url{https://github.com/sail-sg/ptp}.