Großskaliges adversariales Training für die Vision-und-Sprache-Repräsentationslernen

Wir präsentieren VILLA, den ersten bekannten Ansatz zur großskaligen adversarialen Trainings für die Vision-und-Sprache-(V+L)-Darstellungslernung. VILLA besteht aus zwei Trainingsphasen: (i) aufgabenunabhängiges adversariales Vortraining; gefolgt von (ii) aufgabenspezifischem adversarialem Feinabstimmen. Anstatt adversariale Störungen direkt auf den Bilddatenpixeln und Text-Token anzubringen, schlagen wir vor, das adversariale Training im Embedding-Raum jeder Modalität durchzuführen. Um eine großskalige Trainingsdurchführung zu ermöglichen, übernehmen wir die „free“ adversariale Trainingsstrategie und kombinieren sie mit einer KL-Divergenz-basierten Regularisierung, um eine höhere Invarianz im Embedding-Raum zu fördern. Wir wenden VILLA auf derzeit beste V+L-Modelle an und erreichen neue SOTA-Ergebnisse (State-of-the-Art) auf einer Vielzahl von Aufgaben, darunter Visual Question Answering, Visual Commonsense Reasoning, Image-Text-Retrieval, Referring Expression Comprehension, Visual Entailment sowie NLVR2.