Entkoppelung der Etikettverteilung für die langschwänzige visuelle Erkennung

Das derzeitige Evaluationsprotokoll der langschwänzigen visuellen Erkennung trainiert das Klassifikationsmodell auf der langschwänzigen Quelllabelverteilung und bewertet seine Leistung auf der uniformen Ziellabelverteilung. Dieses Protokoll weist eine fragwürdige praktische Relevanz auf, da auch das Zielverteilung langschwänzig sein kann. Daher formulieren wir die langschwänzige visuelle Erkennung als ein Problem des Label-Shifts, bei dem sich die Ziel- und Quelllabelverteilungen unterscheiden. Ein zentrales Hindernis bei der Behandlung des Label-Shift-Problems ist die Verflechtung zwischen der Quelllabelverteilung und der Modellvorhersage. In diesem Artikel konzentrieren wir uns darauf, die Quelllabelverteilung von der Modellvorhersage zu entkoppeln. Zunächst führen wir eine einfache, jedoch bisher übersehene Basismethode ein, die die Ziellabelverteilung durch eine Nachverarbeitung der Modellvorhersage erreicht, die mittels Kreuzentropieverlust und Softmax-Funktion trainiert wurde. Obwohl diese Methode auf Benchmark-Datensätzen die bisherigen State-of-the-Art-Methoden übertrifft, lässt sie sich weiter verbessern, indem die Quelllabelverteilung bereits im Trainingsprozess direkt von der Modellvorhersage entkoppelt wird. Dementsprechend schlagen wir eine neuartige Methode vor, die LADE-Verlust (LAbel distribution DisEntangling), basierend auf der optimalen Schranke der Donsker-Varadhan-Repräsentation. LADE erreicht state-of-the-art-Leistungen auf Benchmark-Datensätzen wie CIFAR-100-LT, Places-LT, ImageNet-LT und iNaturalist 2018. Darüber hinaus übertrifft LADE bestehende Ansätze bei verschiedenen verschobenen Ziellabelverteilungen und zeigt die allgemeine Anpassungsfähigkeit unseres vorgeschlagenen Ansatzes.