Fraktale Kalibrierung für die Erkennung von Objekten mit langen Schwänzen

Reale Datensätze folgen einer unbalancierten Verteilung, was bei der Erkennung von Objekten in seltenen Kategorien erhebliche Herausforderungen aufwirft. Aktuelle Studien greifen dieses Problem durch die Entwicklung von Gewichtungs- und Neustichprobenverfahren (re-sampling methods) an, die die Klassenhäufigkeiten des Datensatzes nutzen. Diese Techniken konzentrieren sich jedoch ausschließlich auf die Häufigkeitsstatistiken und ignorieren die Verteilung der Klassen im Bildraum, wodurch wichtige Informationen verloren gehen. Im Gegensatz dazu schlagen wir FRActal CALibration (FRACAL) vor: eine neuartige Postkalibrierungsmethode für langschwänzige Objekterkennung. FRACAL entwickelt eine Logit-Anpassungsmethode, die die fraktale Dimension verwendet, um abzuschätzen, wie gleichmäßig Klassen im Bildraum verteilt sind. Während der Inferenz nutzt es die fraktale Dimension, um die Wahrscheinlichkeiten gleichmäßig verteilter Klassenvorhersagen invers zu reduzieren, wodurch ein Gleichgewicht zwischen häufigen und seltenen Kategorien sowie zwischen gleichmäßig verteilten und dünn besiedelten Klassen hergestellt wird. FRACAL ist eine Nachbearbeitungsmethode und erfordert keine Trainingsphase; zudem kann es mit vielen Standardmodellen kombiniert werden, wie zum Beispiel One-Stage-Sigmoid-Detektoren und Two-Stage-Instanzsegmentierungsmodellen. FRACAL verbessert die Leistung bei seltenen Klassen um bis zu 8,6 % und übertrifft alle bisherigen Methoden im LVIS-Datensatz, während es auch gute Generalisierungseigenschaften auf andere Datensätze wie COCO, V3Det und OpenImages zeigt. Wir stellen den Code unter https://github.com/kostas1515/FRACAL zur Verfügung.