Komplexität der Eingabe und Detektion von außerhalb der Verteilung liegenden Daten mit wahrscheinlichkeitsbasierten generativen Modellen

Wahrscheinlichkeitsbasierte generative Modelle stellen eine vielversprechende Ressource zur Erkennung von außerhalb der Verteilung liegenden (OOD) Eingaben dar, die die Robustheit oder Zuverlässigkeit eines maschinellen Lernsystems beeinträchtigen könnten. Allerdings haben sich Wahrscheinlichkeiten, die aus solchen Modellen abgeleitet werden, bei der Erkennung bestimmter Eingabetypen als problematisch erwiesen, die sich erheblich von den Trainingsdaten unterscheiden. In diesem Paper argumentieren wir, dass dieses Problem auf den übermäßigen Einfluss der Eingabekomplexität in den Wahrscheinlichkeiten generativer Modelle zurückzuführen ist. Wir präsentieren eine Reihe von Experimenten, die diese Hypothese unterstützen, und nutzen eine Schätzung der Eingabekomplexität, um einen effizienten und parameterfreien OOD-Score abzuleiten, der als Likelihood-Verhältnis verstanden werden kann und vergleichbar mit der bayesschen Modellkomparierung ist. Wir stellen fest, dass dieser Score unter einer Vielzahl von Datensätzen, Modellen, Modellgrößen und Komplexitätsschätzungen vergleichbar oder sogar besser abschneidet als bestehende Ansätze zur OOD-Erkennung.