ViLT: Vision-und-Sprach-Transformer ohne Faltung oder Regionssupervision

Vision-and-Language Pre-training (VLP) hat die Leistung bei verschiedenen nachgelagerten Aufgaben im Bereich Vision und Sprache verbessert. Aktuelle Ansätze für VLP basieren stark auf Prozessen der Bildmerkmalsextraktion, von denen die meisten regionale Überwachung (z.B. Objekterkennung) und die Faltungsbasierte Architektur (z.B. ResNet) beinhalten. Obwohl in der Literatur vernachlässigt, finden wir dies in Bezug auf (1) Effizienz/Geschwindigkeit problematisch, da die einfache Extraktion von Eingabemerkmals bereits viel mehr Rechenleistung erfordert als die Schritte der multimodalen Interaktion; und (2) Ausdrucksstärke, da sie durch die Ausdrucksstärke des visuellen Einbettungsmodells und dessen vordefinierten visuellen Wortschatz begrenzt ist. In dieser Arbeit stellen wir ein minimalistisches VLP-Modell vor: den Vision-and-Language Transformer (ViLT), das im Sinne einer vereinfachten Verarbeitung von visuellen Eingaben konzipiert ist, indem es diese auf dieselbe faltungsfreie Weise verarbeitet wie textuelle Eingaben. Wir zeigen, dass ViLT bis zu zehnmal schneller als frühere VLP-Modelle ist, gleichzeitig aber eine wettbewerbsfähige oder sogar bessere Leistung bei nachgelagerten Aufgaben erzielt. Unser Code und die vortrainierten Gewichte sind unter https://github.com/dandelin/vilt verfügbar.