Multimodale adaptivees Distillation zur Nutzung einmodaler Encoder für visuallinguistische Aufgaben

Cross-modal-Encoder für Vision-Sprache (VL)-Aufgaben werden oft mit sorgfältig zusammengestellten Vision-Sprache-Datensätzen vortrainiert. Obwohl diese Datensätze eine Größenordnung von etwa 10 Millionen Samples erreichen, ist die Arbeitskosten für eine weitere Skalierung prohibitiv. Im Gegensatz dazu werden Unimodal-Encoder mit einfacheren Annotationen vortrainiert, die kostengünstiger sind und Skalen von Hunderten Millionen bis zu Milliarden erreichen. Dadurch haben Unimodal-Encoder auf vielen nachgeschalteten Aufgaben Zustand der Kunst (SOTA) erreicht. Bei der Anwendung auf VL-Aufgaben bestehen jedoch weiterhin Herausforderungen. Die Vortrainingsdaten sind für cross-modal Architekturen nicht optimal und erfordern erhebliche rechnerische Ressourcen. Zudem fehlen Unimodal-Architekturen cross-modal Interaktionen, die sich für VL-Aufgaben als signifikant vorteilhaft erwiesen haben. Daher bleibt die Frage, wie man vortrainierte Unimodal-Encoder am besten für VL-Aufgaben nutzen kann, ein aktives Forschungsfeld. In dieser Arbeit stellen wir eine Methode vor, die vortrainierte Unimodal-Vision- und Text-Encoder für VL-Aufgaben nutzt, wobei bestehende VL-Ansätze ergänzt werden, ohne die rechnerische Komplexität zu erhöhen. Konkret schlagen wir Multimodal Adaptive Distillation (MAD) vor, eine Methode, die adaptiv nützliches Wissen aus vortrainierten Encodern auf cross-modal VL-Encoder überträgt. Zweitens führen wir ein Evaluationsprotokoll ein, das Visual Commonsense Reasoning (VCR), Visual Entailment (SNLI-VE) und Visual Question Answering (VQA) umfasst, unter verschiedenen Dateneinschränkungen und Bedingungen von Domänenverschiebung. Experimente zeigen, dass MAD konsistente Verbesserungen in Low-Shot-, Domänenverschiebungs- und vollständig überwachten Szenarien für VCR, SNLI-VE und VQA erzielt und gegenüber anderen Einzelmodellen, die mit Bild-Sprache-Daten vortrainiert wurden, SOTA-Leistung auf VCR erreicht. Schließlich übertrifft MAD auch konkurrierende Ansätze, die einen vortrainierten Vision-Encoder aus CLIP nutzen. Der Quellcode wird verfügbar gemacht.