Zentrierung und Skalierungsvorhersage: Ein anchorfreier Ansatz für die Erkennung von Personen und Gesichtern

Objekterkennung erfordert traditionell rutschende Fenster-Klassifizierer oder in modernen Tiefenlernverfahren Vorhersagen auf Basis von Anchor Boxes. Jedoch benötigen beide Ansätze mühsame Konfigurationen der Boxen. In dieser Arbeit stellen wir eine neue Perspektive vor, bei der die Objekterkennung als eine Aufgabe zur Erkennung hochstufiger semantischer Merkmale motiviert wird. Ähnlich wie Kanten-, Ecken- und Blob-Detektoren durchsucht der vorgeschlagene Detektor das gesamte Bild nach Merkmalspunkten, wofür Faltung (Convolution) besonders geeignet ist. Im Gegensatz zu diesen traditionellen niedrigstufigen Merkmalen strebt der vorgeschlagene Detektor jedoch eine höhere Abstraktionsebene an, indem er nach Zentrumspunkten sucht, an denen sich Objekte befinden, und moderne Tiefenmodelle sind bereits in der Lage, solche hochstufige semantische Abstraktionen zu erkennen. Darüber hinaus prognostizieren wir ähnlich wie bei Blob-Detektion auch die Skalen der Zentrumspunkte, was ebenfalls eine einfache Faltung darstellt. Somit wird in dieser Arbeit die Erkennung von Fußgängern und Gesichtern durch konvolutive Voraussagen von Zentrum und Skala vereinfacht. Auf diese Weise verfügt die vorgeschlagene Methode über eine boxfreie Struktur. Trotz ihrer strukturellen Einfachheit zeigt sie wettbewerbsfähige Genauigkeit in mehreren anspruchsvollen Benchmarks, einschließlich der Erkennung von Fußgängern und Gesichtern. Des Weiteren wurde eine Kreuzdatensatzauswertung durchgeführt, die eine überlegene Generalisierungsfähigkeit der vorgeschlagenen Methode demonstriert. Der Code und die Modelle können unter den folgenden Links abgerufen werden: (https://github.com/liuwei16/CSP und https://github.com/hasanirtiza/Pedestron).