Differentiable Outlier Detection ermöglicht robuste tiefe multimodale Analyse

Häufig sind tiefe Netzwerkmodelle während des Trainings sowie bei der Inferenz auf unbekannte Daten rein induktiv. Daher ist bekannt, dass solche Modelle bei Vorhersagen oft Schwierigkeiten haben, semantische Informationen und implizite Abhängigkeiten zwischen Objekten (oder Konzepten) auf Bevölkerungsebene adäquat zu erfassen. Zudem ist unklar, wie Domänen- oder Vorwissen auf eine mit Backpropagation verträgliche Weise spezifiziert werden kann, insbesondere in großskaligen und verrauschten Umgebungen. In dieser Arbeit stellen wir ein end-to-end-Modell für Vision und Sprache vor, das explizite Wissensgraphen integriert. Zudem führen wir eine interaktive Out-of-Distribution-(OOD)-Schicht mit Hilfe eines impliziten Netzwerkoperators ein, die dazu dient, Rauschen zu filtern, das durch externe Wissensbasen verursacht wird. In der Praxis wenden wir unser Modell auf mehrere Aufgaben im Bereich Vision und Sprache an, darunter visuelle Fragebeantwortung, visuelle Schlussfolgerung sowie Bild-Text-Recherche auf verschiedenen Datensätzen. Unsere Experimente zeigen, dass es möglich ist, Modelle zu entwerfen, die Ergebnisse nahe an denen der State-of-the-Art erreichen, jedoch mit erheblich weniger Trainingsdaten und kürzerer Trainingszeit.