Objekterkennung von unten nach oben durch Gruppierung von Extrempunkten und Zentrumspunkten

Mit der Einführung des Deep Learnings wandelte sich das Objekterkennung von einem bottom-up zu einem top-down Problem. Die neuesten Algorithmen erstellen eine fast vollständige Liste von Objektstandorten und klassifizieren jeden als: Objekt oder kein Objekt. In dieser Arbeit zeigen wir, dass bottom-up Ansätze weiterhin wettbewerbsfähig sind. Wir erkennen vier Extrempunkte (oberster, linker, unterster, rechter) und einen Mittelpunkt der Objekte mithilfe eines standardisierten Keypoint-Schätznetzes. Wenn diese fünf Keypoints geometrisch ausgerichtet sind, fassen wir sie zu einem Begrenzungsrahmen zusammen. Die Objekterkennung ist dann ein rein auf dem Erscheinungsbild basierendes Keypoint-Schätzproblem, ohne Regionalklassifikation oder implizites Feature-Lernen. Die vorgeschlagene Methode erreicht Ergebnisse, die mit den neuesten regionbasierten Erkennungsmethoden vergleichbar sind, mit einer Begrenzungsrahmen-AP von 43,2 % auf COCO test-dev. Zudem spannen unsere geschätzten Extrempunkte direkt eine grobe achteckige Maske auf, die eine COCO-Maske-AP von 18,9 % erreicht – deutlich besser als die Maske-AP von einfachen Begrenzungsrahmen. Durch segmentierungsgesteuerte Extrempunkte wird dies weiter verbessert auf 34,6 % Maske-AP.