HyperAIHyperAI

Command Palette

Search for a command to run...

Großskaliges adversariales Training für die Vision-und-Sprache-Repräsentationslernen

Zhe Gan Yen-Chun Chen Linjie Li Chen Zhu Yu Cheng Jingjing Liu

Zusammenfassung

Wir präsentieren VILLA, den ersten bekannten Ansatz zur großskaligen adversarialen Trainings für die Vision-und-Sprache-(V+L)-Darstellungslernung. VILLA besteht aus zwei Trainingsphasen: (i) aufgabenunabhängiges adversariales Vortraining; gefolgt von (ii) aufgabenspezifischem adversarialem Feinabstimmen. Anstatt adversariale Störungen direkt auf den Bilddatenpixeln und Text-Token anzubringen, schlagen wir vor, das adversariale Training im Embedding-Raum jeder Modalität durchzuführen. Um eine großskalige Trainingsdurchführung zu ermöglichen, übernehmen wir die „free“ adversariale Trainingsstrategie und kombinieren sie mit einer KL-Divergenz-basierten Regularisierung, um eine höhere Invarianz im Embedding-Raum zu fördern. Wir wenden VILLA auf derzeit beste V+L-Modelle an und erreichen neue SOTA-Ergebnisse (State-of-the-Art) auf einer Vielzahl von Aufgaben, darunter Visual Question Answering, Visual Commonsense Reasoning, Image-Text-Retrieval, Referring Expression Comprehension, Visual Entailment sowie NLVR2.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp