RFLA: Gaussian-Rezeptivfeld-basierte Label-Zuweisung für die Detektion winziger Objekte

Die Erkennung winziger Objekte stellt eine der zentralen Herausforderungen dar, die die Entwicklung von Objekterkennung behindern. Die Leistung allgemeiner Objekterkennungssysteme neigt dazu, sich bei der Erkennung winziger Objekte erheblich zu verschlechtern. In diesem Artikel zeigen wir, dass sowohl die Box-Prior in anchor-basierten Detektoren als auch die Point-Prior in anchor-freien Detektoren für winzige Objekte suboptimal sind. Unser zentrales Beobachtungsergebnis ist, dass die derzeitigen Label-Zuweisungsparadigmen sowohl in anchor-basierten als auch in anchor-freien Ansätzen viele Ausreißer in Bezug auf die Größe der Ground-Truth-Objekte erzeugen, was dazu führt, dass Detektoren weniger Aufmerksamkeit auf winzige Objekte richten. Um dies zu beheben, schlagen wir eine auf der Gaussian-Receptive-Field-basierten Label-Zuweisung (RFLA) basierende Strategie für die Erkennung winziger Objekte vor. Konkret nutzt RFLA zunächst die Vorinformation, dass der Rezeptivfeldbereich der Merkmale einer Gauss-Verteilung folgt. Anstelle der traditionellen Zuweisung basierend auf IoU oder Center-Sampling wird ein neues Maß, die Receptive-Field-Distanz (RFD), eingeführt, um die Ähnlichkeit zwischen dem Gauss-Rezeptivfeld und der Ground-Truth direkt zu quantifizieren. Da sowohl die IoU-Schwellenwert-basierte als auch die Center-Sampling-Strategie tendenziell große Objekte bevorzugen, entwickeln wir zusätzlich ein hierarchisches Label-Zuweisungsmodul (HLA), das auf der RFD basiert, um ein ausgewogenes Lernen für winzige Objekte zu ermöglichen. Umfassende Experimente an vier Datensätzen belegen die Wirksamkeit des vorgeschlagenen Ansatzes. Insbesondere erreicht unsere Methode auf dem AI-TOD-Datensatz eine Verbesserung um 4,0 AP-Punkte gegenüber den aktuellen State-of-the-Art-Methoden. Der Quellcode ist unter https://github.com/Chasel-Tsui/mmdet-rfla verfügbar.