VL-BERT: Vorerziehung generischer visueller und linguistischer Repräsentationen

Wir stellen eine neue, vortrainierbare generische Darstellung für visuelle und linguistische Aufgaben vor, die als Visual-Linguistic BERT (kurz VL-BERT) bezeichnet wird. VL-BERT verwendet das einfache, aber leistungsfähige Transformer-Modell als Grundstruktur und erweitert es, um sowohl visuelle als auch linguistische eingebettete Merkmale als Eingabe zu akzeptieren. Dabei ist jedes Element der Eingabe entweder ein Wort aus dem Eingabetext oder ein Region-of-Interest (RoI) aus dem Eingabebild. Das Modell ist so konzipiert, dass es sich auf die meisten visuell-linguistischen Downstream-Aufgaben anpassen lässt. Um die generische Darstellung besser zu nutzen, wurde VL-BERT auf dem groß angelegten Conceptual Captions-Datensatz sowie einem rein textbasierten Korpus vortrainiert. Eine umfangreiche empirische Analyse zeigt, dass das Vortrainingsverfahren die visuellen und linguistischen Hinweise besser ausrichten kann und den Downstream-Aufgaben zugutekommt, wie zum Beispiel der visuelle Common-Sense-Reasoning, das visuelle Fragenbeantworten und die Verarbeitung von referierenden Ausdrücken. Es sei erwähnt, dass VL-BERT in der Einzelmodell-Rangliste des VCR-Benchmarks den ersten Platz belegt hat. Der Quellcode ist unter \url{https://github.com/jackroos/VL-BERT} verfügbar.