Das Verdampfen von virtuellen Beispielen für die Long-tailed-Erkennung

Wir behandeln das Problem der langen Schwanz-Visual Recognition aus der Perspektive der Wissens-Distillation und schlagen eine Methode namens „Distill the Virtual Examples (DiVE)“ vor. Konkret betrachten wir die Vorhersagen eines Lehrmodells als virtuelle Beispiele und beweisen, dass das Distillieren aus diesen virtuellen Beispielen unter bestimmten Bedingungen äquivalent ist zu Learning von Label-Verteilungen. Wir zeigen, dass sich die unterrepräsentierten Tail-Klassen erheblich verbessern, wenn die Verteilung der virtuellen Beispiele flacher wird als die ursprüngliche Eingabeverteilung – ein entscheidender Faktor für die Erkennung bei langen Schwänzen. Die vorgeschlagene DiVE-Methode ermöglicht es explizit, die Verteilung der virtuellen Beispiele auf eine flachere Form zu justieren. Umfangreiche Experimente an drei Benchmark-Datensätzen, darunter der großskalige iNaturalist-Datensatz, belegen, dass die vorgeschlagene DiVE-Methode die besten bestehenden Ansätze signifikant übertrifft. Zudem bestätigen zusätzliche Analysen und Experimente die Interpretation als virtuelle Beispiele und demonstrieren die Wirksamkeit der maßgeschneiderten Gestaltungselemente in DiVE für Probleme mit langen Schwänzen.