Eine empirische Studie zur Schulung von end-to-end Vision-und-Sprache-Transformern

Die Vortrainierung von Vision- und Sprache-(VL-)Modellen hat sich bei verschiedenen VL-Downstream-Aufgaben als äußerst effektiv erwiesen. Obwohl jüngste Arbeiten gezeigt haben, dass vollständig auf Transformers basierende VL-Modelle effizienter sein können als frühere Methoden, die auf Regionenmerkmalen beruhen, leidet ihre Leistung auf Downstream-Aufgaben oft erheblich. In diesem Paper stellen wir METER, einen Multimodalen End-to-End TransformER-Framework, vor, mit dessen Hilfe wir untersuchen, wie ein vollständig auf Transformers basierendes VL-Modell end-to-end entworfen und vortrainiert werden kann. Konkret analysieren wir die Modellarchitektur entlang mehrerer Dimensionen: Vision-Encoder (z. B. CLIP-ViT, Swin Transformer), Text-Encoder (z. B. RoBERTa, DeBERTa), multimodale Fusion-Module (z. B. verschmolzene Aufmerksamkeit vs. Ko-Aufmerksamkeit), Architekturdesign (z. B. Encoder-only vs. Encoder-Decoder) sowie Vortrainierungsziele (z. B. maskiertes Bildmodellierung). Wir führen umfassende Experimente durch und liefern Erkenntnisse darüber, wie ein leistungsfähiges VL-Transformer-Modell trainiert werden kann. METER erreicht auf dem VQAv2-Test-std-Datensatz eine Genauigkeit von 77,64 %, wobei lediglich 4 Mio. Bilder für das Vortraining verwendet werden, was den Stand der Technik bei regionenbasierten Modellen um 1,04 % übertrifft und das bisher beste vollständig auf Transformers basierende Modell um 1,6 % schlägt. Insbesondere bei weiterer Skalierung erreicht unser bestes VQA-Modell eine Genauigkeit von 80,54 %. Der Quellcode und die vortrainierten Modelle sind unter https://github.com/zdou0830/METER verfügbar.