Objektlokalisation ohne Begrenzungsrahmen

Neuere Fortschritte im Bereich der Faltungsneuronalen Netze (CNN) haben bemerkenswerte Ergebnisse bei der Lokalisierung von Objekten in Bildern erzielt. Bei diesen Netzwerken erfordert das Trainingsverfahren in der Regel die Bereitstellung von Begrenzungsrahmen oder der maximalen Anzahl erwarteter Objekte. In dieser Arbeit adressieren wir die Aufgabe, Objektstandorte ohne annotierte Begrenzungsrahmen zu schätzen, die üblicherweise von Hand gezeichnet und zeitaufwendig zu beschriften sind. Wir schlagen eine Verlustfunktion vor, die in jedem vollständig faltenden Netzwerk (FCN) zur Schätzung von Objektstandorten verwendet werden kann. Diese Verlustfunktion ist eine Modifikation des durchschnittlichen Hausdorff-Abstands zwischen zwei ungeordneten Punktmengen. Das vorgeschlagene Verfahren kennt keine Begriffe wie Begrenzungsrahmen, Regionenvorschläge oder Gleitfenster. Wir evaluieren unsere Methode anhand dreier Datensätze, die darauf ausgelegt sind, Menschenköpfe, Pupillenmitte und Pflanzenzentren zu lokalisieren. Unsere Methode übertrifft den Stand der Technik sowohl bei generischen Objekterkennern als auch bei für Pupillenerkennung feinjustierten Methoden.