Klassenbalancierte Distillation für langschwänzige visuelle Erkennung

Realweltbilder zeichnen sich häufig durch eine erhebliche Ungleichverteilung der Anzahl an Bildern pro Klasse aus, was zu langen Schwanzverteilungen führt. Ein effektiver und einfacher Ansatz für die Erkennung visueller Klassen unter solchen Bedingungen besteht darin, Merkmalsrepräsentationen und Klassifizierer getrennt zu lernen, jeweils mit instanz- und klassenbalanciertem Sampling. In dieser Arbeit stellen wir einen neuen Ansatz vor, basierend auf der zentralen Beobachtung, dass eine Merkmalsrepräsentation, die mit instanzbalanciertem Sampling gelernt wird, in einem langen Schwanz-Szenario weit von der Optimalität entfernt ist. Unser Hauptbeitrag ist eine neue Trainingsmethode, die als Klassenbalancierte Distillation (Class-Balanced Distillation, CBD) bezeichnet wird und Wissensdistillation nutzt, um Merkmalsrepräsentationen zu verbessern. CBD ermöglicht es, die Merkmalsrepräsentation im zweiten Trainingsstadium zu verfeinern, wobei der Lehrer, der im ersten Schritt gelernt wurde, als Leitfaden dient. Im zweiten Schritt wird klassenbalanciertes Sampling angewendet, um sich gezielt auf unterrepräsentierte Klassen zu konzentrieren. Dieser Rahmen lässt sich natürlicherweise auch mit mehreren Lehrern verwenden, wodurch die Informationen aus einer Ensemble-Modellarchitektur genutzt werden können, um die Erkennungsfähigkeiten weiter zu steigern. Unsere Experimente zeigen, dass die vorgeschlagene Methode auf Benchmarks für lange Schwanz-Erkennung wie ImageNet-LT, iNaturalist17 und iNaturalist18 konsistent die bisherigen State-of-the-Art-Methoden übertrifft.