Verteilungsausrichtung: Ein einheitlicher Rahmen für die Long-tail-Bilderkennung

Trotz des jüngsten Erfolgs tiefer neuronaler Netzwerke bleibt die effektive Modellierung der Long-Tail-Klassenverteilung in visuellen Erkennungsaufgaben weiterhin herausfordernd. Um dieses Problem anzugehen, untersuchen wir zunächst über eine ablation study die Leistungsbegrenzung des zweistufigen Lernframeworks. Ausgehend von unseren Erkenntnissen schlagen wir eine einheitliche Strategie zur Verteilungsausrichtung für die Long-Tail-Visual Recognition vor. Konkret entwickeln wir eine adaptive Kalibrierungsfunktion, die es uns ermöglicht, die Klassifikationswerte für jedes Datenelement anzupassen. Anschließend führen wir eine verallgemeinerte Reweighting-Methode im zweistufigen Lernprozess ein, um die Klassenprioritäten auszugleichen, was eine flexible und einheitliche Lösung für vielfältige Szenarien in visuellen Erkennungsaufgaben bietet. Wir validieren unsere Methode durch umfangreiche Experimente an vier Aufgaben, darunter Bildklassifikation, semantische Segmentierung, Objekterkennung und Instanzsegmentierung. Unser Ansatz erzielt state-of-the-art Ergebnisse auf allen vier Erkennungsaufgaben mit einem einfachen und einheitlichen Framework. Der Quellcode und die Modelle werden öffentlich verfügbar gemacht unter: https://github.com/Megvii-BaseDetection/DisAlign