Langschwänzige Klassifikation durch Beibehaltung des Guten und Beseitigung des Schlechten des kausalen Einflusses der Impulsbewegung

Mit wachsender Klassenanzahl ist es herausfordernd, ein ausgewogenes Datenset über viele Klassen hinweg aufrechtzuerhalten, da die Daten naturgemäß langschwänzig sind; dies ist sogar unmöglich, wenn die interessierenden Proben innerhalb einer einzigen sammlbaren Einheit miteinander koexistieren, beispielsweise mehrere visuelle Instanzen innerhalb eines Bildes. Daher ist die langschwänzige Klassifikation entscheidend für die Skalierung von Deep Learning. Bisherige Ansätze basieren jedoch hauptsächlich auf heuristischen Strategien wie Gewichtsreorganisation oder Resampling, die fehlen einer fundierten Theorie. In diesem Artikel stellen wir einen kausalen Inferenzrahmen vor, der nicht nur die Ursachen früherer Methoden aufklärt, sondern auch eine neue, prinzipienbasierte Lösung ableitet. Konkret zeigt unsere Theorie, dass der SGD-Momentum in der langschwänzigen Klassifikation im Wesentlichen ein Konfunder ist. Einerseits übt er einen schädlichen kausalen Effekt aus, der die Vorhersage für die selteneren Klassen (Tail) verzerrt und in Richtung der häufigeren Klassen (Head) verschiebt. Andererseits fördert der durch ihn induzierte mittelbare Effekt die Repräsentationslernung und die Vorhersage für die häufigen Klassen. Unser Rahmen löst elegant den scheinbaren Widerspruch der Wirkungen des Momentums, indem er den direkten kausalen Effekt eines Eingabeproben verfolgt. Insbesondere nutzen wir kausale Intervention im Trainingsprozess und gegenfaktische Schlussfolgerung im Inferenzschritt, um den „schlechten“ Effekt zu eliminieren, während der „gute“ beibehalten wird. Wir erreichen neue SOTA-Ergebnisse auf drei Benchmarks für langschwänzige visuelle Erkennung: Long-tailed CIFAR-10/-100, ImageNet-LT für Bildklassifikation und LVIS für Instanzsegmentierung.