Eine normierte Gaußsche Wasserstein-Distanz für die Detektion kleiner Objekte

Die Erkennung winziger Objekte stellt eine äußerst herausfordernde Aufgabe dar, da solche Objekte lediglich wenige Pixel in der Größe aufweisen. Wir zeigen, dass state-of-the-art-Detektoren auf winzigen Objekten keine zufriedenstellenden Ergebnisse erzielen, da ihnen die visuelle Erscheinungsinformation fehlt. Unser zentraler Beobachtungspunkt ist, dass auf Intersection over Union (IoU) basierende Metriken – wie IoU selbst und dessen Erweiterungen – äußerst empfindlich gegenüber Positionsabweichungen winziger Objekte sind und die Erkennungsleistung erheblich verschlechtern, wenn sie in anchor-basierten Detektoren eingesetzt werden. Um dies zu mildern, schlagen wir eine neue Bewertungsmaßzahl vor, die die Wasserstein-Distanz für die Erkennung winziger Objekte nutzt. Konkret modellieren wir die Bounding Boxes zunächst als 2D-Gauß-Verteilungen und schlagen dann eine neue Metrik vor, die als Normalized Wasserstein Distance (NWD) bezeichnet wird, um die Ähnlichkeit zwischen ihnen anhand ihrer entsprechenden Gauß-Verteilungen zu berechnen. Die vorgeschlagene NWD-Metrik kann problemlos in die Zuordnung, die Non-Maximum-Suppression und die Verlustfunktion beliebiger anchor-basierter Detektoren integriert werden, um die üblicherweise verwendete IoU-Metrik zu ersetzen. Wir evaluieren unsere Metrik anhand eines neuen Datensatzes für die Erkennung winziger Objekte (AI-TOD), bei dem die durchschnittliche Objektgröße deutlich kleiner ist als bei bestehenden Objekterkennungsdatensätzen. Umfangreiche Experimente zeigen, dass unsere Methode mit der NWD-Metrik eine Leistung um 6,7 AP-Punkte über einer Standard-Finetuning-Benchmark und um 6,0 AP-Punkte über den derzeit besten Stand der Technik hinaus erzielt. Der Quellcode ist unter folgender Adresse verfügbar: https://github.com/jwwangchn/NWD.