Robuste Lernverfahren durch Aufgabenübergreifende Konsistenz

Die visuelle Wahrnehmung erfordert die Lösung einer Vielzahl von Aufgaben (z. B. Objekterkennung, Tiefenschätzung usw.). Die Vorhersagen für verschiedene Aufgaben, die aus einem einzigen Bild abgeleitet werden, sind nicht unabhängig voneinander und sollten daher „konsistent“ sein. Wir schlagen einen flexiblen und vollständig rechnerischen Rahmen für das Lernen unter Einhaltung der Kreuz-Aufgaben-Konsistenz (Cross-Task Consistency, X-TAC) vor. Die vorgeschlagene Formulierung basiert auf der „Invarianz der Inferenzpfade“ über einem beliebigen Graphen von Vorhersagebereichen. Wir beobachten, dass das Lernen unter Berücksichtigung der Kreuz-Aufgaben-Konsistenz zu genaueren Vorhersagen, einer besseren Generalisierung auf außerhalb der Verteilung liegende (out-of-distribution) Beispiele sowie einer verbesserten Stichprobeneffizienz führt. Dieser Rahmen ermöglicht zudem die Einführung einer leistungsfähigen, unsupervisierten Größe, die als „Konsistenzenergie“ bezeichnet wird und auf der Messung der intrinsischen Konsistenz des Systems basiert. Die Konsistenzenergie korreliert stark mit dem überwachten Fehler (r = 0,67), wodurch sie als unsupervisiertes Robustheitsmaß sowie zur Erkennung von außerhalb der Verteilung liegenden Eingaben genutzt werden kann (AUC = 0,99). Die Evaluierung erfolgte an mehreren Datensätzen, darunter Taskonomy, Replica, CocoDoom und ApolloScape.