HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodale adaptivees Distillation zur Nutzung einmodaler Encoder für visuallinguistische Aufgaben

Zusammenfassung

Cross-modal-Encoder für Vision-Sprache (VL)-Aufgaben werden oft mit sorgfältig zusammengestellten Vision-Sprache-Datensätzen vortrainiert. Obwohl diese Datensätze eine Größenordnung von etwa 10 Millionen Samples erreichen, ist die Arbeitskosten für eine weitere Skalierung prohibitiv. Im Gegensatz dazu werden Unimodal-Encoder mit einfacheren Annotationen vortrainiert, die kostengünstiger sind und Skalen von Hunderten Millionen bis zu Milliarden erreichen. Dadurch haben Unimodal-Encoder auf vielen nachgeschalteten Aufgaben Zustand der Kunst (SOTA) erreicht. Bei der Anwendung auf VL-Aufgaben bestehen jedoch weiterhin Herausforderungen. Die Vortrainingsdaten sind für cross-modal Architekturen nicht optimal und erfordern erhebliche rechnerische Ressourcen. Zudem fehlen Unimodal-Architekturen cross-modal Interaktionen, die sich für VL-Aufgaben als signifikant vorteilhaft erwiesen haben. Daher bleibt die Frage, wie man vortrainierte Unimodal-Encoder am besten für VL-Aufgaben nutzen kann, ein aktives Forschungsfeld. In dieser Arbeit stellen wir eine Methode vor, die vortrainierte Unimodal-Vision- und Text-Encoder für VL-Aufgaben nutzt, wobei bestehende VL-Ansätze ergänzt werden, ohne die rechnerische Komplexität zu erhöhen. Konkret schlagen wir Multimodal Adaptive Distillation (MAD) vor, eine Methode, die adaptiv nützliches Wissen aus vortrainierten Encodern auf cross-modal VL-Encoder überträgt. Zweitens führen wir ein Evaluationsprotokoll ein, das Visual Commonsense Reasoning (VCR), Visual Entailment (SNLI-VE) und Visual Question Answering (VQA) umfasst, unter verschiedenen Dateneinschränkungen und Bedingungen von Domänenverschiebung. Experimente zeigen, dass MAD konsistente Verbesserungen in Low-Shot-, Domänenverschiebungs- und vollständig überwachten Szenarien für VCR, SNLI-VE und VQA erzielt und gegenüber anderen Einzelmodellen, die mit Bild-Sprache-Daten vortrainiert wurden, SOTA-Leistung auf VCR erreicht. Schließlich übertrifft MAD auch konkurrierende Ansätze, die einen vortrainierten Vision-Encoder aus CLIP nutzen. Der Quellcode wird verfügbar gemacht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp