Implizite differenzierbare Ausreißerdetektion ermöglicht robuste tiefe multimodale Analyse

Tiefen Netzwerkmodelle sind während sowohl des Trainings als auch der Inferenz auf unbekannte Daten oft rein induktiv. Bei der Vorhersage können solche Modelle jedoch wichtige semantische Informationen und implizite Abhängigkeiten innerhalb von Datensätzen verfehlen. Neuere Fortschritte haben gezeigt, dass die Kombination mehrerer Modalitäten in großskaligen visuellen und sprachlichen Umgebungen das Verständnis und die Verallgemeinerungsfähigkeit verbessern kann. Allerdings werden Fine-Tuning und Bereitstellung mit wachsender Modellgröße rechenintensiv, selbst bei einer geringen Anzahl von Downstream-Aufgaben. Zudem ist unklar, wie Domänen- oder Vorwissen in einer backpropagationsfreundlichen Weise spezifiziert werden kann, insbesondere in großskaligen und verrauschten Umgebungen. Um diese Herausforderungen anzugehen, schlagen wir eine vereinfachte Alternative vor, die Merkmale aus vortrainierten tiefen Netzwerken mit frei verfügbarem, explizitem semantischem Wissen kombiniert. Um irrelevante explizite Kenntnisse zu entfernen, die nicht gut zu den Bildern passen, führen wir eine implizite, differenzierbare Out-of-Distribution (OOD)-Detektionsschicht ein. Diese Schicht löst das Problem der Ausreißererkennung durch die Bestimmung von Fixpunkten einer differenzierbaren Funktion und nutzt das letzte Iterat des Fixpunkt-Lösers zur Rückpropagation. In der Praxis wenden wir unser Modell auf mehrere visuelle und sprachliche Downstream-Aufgaben an, darunter Visual Question Answering, visuelle Schlussfolgerung und Bild-Text-Recherche auf verschiedenen Datensätzen. Unsere Experimente zeigen, dass es möglich ist, Modelle zu entwerfen, die Ergebnisse nahe an denen der State-of-the-Art erzielen, jedoch mit deutlich weniger Trainingsbeispielen und kürzerer Trainingszeit. Unsere Modelle und den Quellcode finden Sie hier: https://github.com/ellenzhuwang/implicit_vkood