Oscar: Objekt-Semantik-Alignierte Vortrainierung für visuelle-Sprach-Aufgaben

Großskalige Vortrainingsmethoden zur Lernung von multimodalen Darstellungen auf Bild-Text-Paaren gewinnen für Aufgaben im Bereich Vision-Language zunehmend an Bedeutung. Während bestehende Ansätze die Bildregionen- und Textmerkmale einfach zusammenfügen, um sie als Eingabe für das Modell zu verwenden, und die semantische Ausrichtung zwischen Bild und Text auf eine rohe, brute-force-Weise mittels Selbst-Attention lernen, schlagen wir in diesem Paper eine neue Lernmethode vor: Oscar (Object-Semantics Aligned Pre-training). Diese Methode nutzt Objektbezeichnungen, die in Bildern detektiert wurden, als Ankerpunkte, um die Lernung der Ausrichtung erheblich zu vereinfachen. Unser Ansatz wird durch die Beobachtung motiviert, dass auffällige Objekte in Bildern präzise detektiert werden können und häufig im zugehörigen Text erwähnt werden. Wir vortrainieren ein Oscar-Modell auf einer öffentlichen Korpus mit 6,5 Millionen Text-Bild-Paaren und feintunen es anschließend auf Aufgaben im Anwendungsbereich, wodurch wir neue State-of-the-Art-Ergebnisse auf sechs etablierten Aufgaben zur Vision-Language-Verständnis und -Generierung erzielen.