VisualBERT: Eine einfache und leistungsfähige Baseline für Vision und Sprache

Wir schlagen VisualBERT vor, ein einfaches und flexibles Framework zur Modellierung eines breiten Spektrums von Aufgaben im Bereich Vision und Sprache. VisualBERT besteht aus einer Schichtstapel von Transformer-Layern, die Elemente des Eingabetexts und Regionen in einem assoziativen Eingabebild implizit durch Selbst-Aufmerksamkeit ausrichten. Des Weiteren schlagen wir zwei visuell angeleitete Sprachmodell-Ziele für das Pre-Training von VisualBERT auf Bildunterschriftendaten vor. Experimente anhand von vier Vision-und-Sprache-Aufgaben, einschließlich VQA (Visual Question Answering), VCR (Visual Commonsense Reasoning), NLVR2 (Natural Language for Visual Reasoning 2) und Flickr30K, zeigen, dass VisualBERT die Leistung oder mit den besten aktuellen Modellen konkurriert, während es erheblich einfacher ist. Eine weitere Analyse demonstriert, dass VisualBERT Elemente der Sprache auf Bildregionen ohne explizite Überwachung ausrichten kann und sogar empfindlich gegenüber syntaktischen Beziehungen ist, indem es beispielsweise Verbindungen zwischen Verben und den ihnen entsprechenden Bildregionen verfolgt.