RepPoints: Punktmenge-Darstellung für die Objekterkennung

Moderne Objekterkennungssysteme basieren stark auf rechteckigen Begrenzungsrahmen, wie Ankers, Vorschläge und die endgültigen Vorhersagen, um Objekte in verschiedenen Erkennungsstufen darzustellen. Der Begrenzungsrahmen ist zwar praktisch zu verwenden, bietet aber nur eine grobe Lokalisierung von Objekten und führt zu einer entsprechend groben Extraktion von Objektmerkmalen. In dieser Arbeit stellen wir \textbf{RepPoints} (repräsentative Punkte) vor, eine neue feinere Darstellung von Objekten als Menge von Stichprobenpunkten, die sowohl für die Lokalisierung als auch für die Erkennung nützlich sind. Angesichts der für das Training vorgegebenen Ground-Truth-Ziele für Lokalisierung und Erkennung lernen RepPoints automatisch, sich so zu ordnen, dass sie den räumlichen Umfang eines Objekts begrenzen und semantisch bedeutsame lokale Bereiche anzeigen. Zudem erfordern sie nicht die Verwendung von Ankers zur Abtastung eines Raums von Begrenzungsrahmen. Wir zeigen, dass ein anchorfreier Objekterkennungsdetektor auf Basis von RepPoints ebenso effektiv sein kann wie die neuesten anchorbasierten Detektionsmethoden, mit einem AP-Wert von 46,5 und einem $AP_{50}$-Wert von 67,4 auf dem COCO Test-Dev-Detektionsbenchmark unter Verwendung des ResNet-101-Modells. Der Quellcode ist unter https://github.com/microsoft/RepPoints verfügbar.