FCOS: Fully Convolutional One-Stage Objekterkennung

Wir schlagen einen vollständig konvolutionellen Ein-Stufen-Objekterkennungsdetektor (Fully Convolutional One-Stage Object Detector, FCOS) vor, um die Objekterkennung in einer pro-Pixel-Vorhersage-Weise zu lösen, vergleichbar mit der semantischen Segmentierung. Fast alle neuesten Objekterkennungsdetektoren wie RetinaNet, SSD, YOLOv3 und Faster R-CNN basieren auf vordefinierten Ankerboxen. Im Gegensatz dazu ist unser vorgeschlagener Detektor FCOS sowohl ankerboxenfrei als auch vorschlagsfrei. Durch die Eliminierung des vordefinierten Satzes von Ankerboxen vermeidet FCOS komplexe Berechnungen im Zusammenhang mit Ankerboxen, wie zum Beispiel das Berechnen von Überlappungen während des Trainings. Noch wichtiger ist, dass wir alle Hyperparameter, die mit Ankerboxen zusammenhängen und oft sehr empfindlich für die endgültige Erkennungsleistung sind, vermeiden. Mit der einzigen Nachbearbeitungsmethode Non-Maximum Suppression (NMS) erreicht FCOS bei Verwendung von ResNeXt-64x4d-101 eine AP von 44,7% bei Einzelmodell- und Einzelskalentests, was frühere Ein-Stufen-Detektoren in puncto Einfachheit übertrifft. Zum ersten Mal zeigen wir ein viel einfacheres und flexibles Erkennungsframework, das eine verbesserte Erkennungsgenauigkeit erzielt. Wir hoffen, dass das vorgeschlagene FCOS-Framework als einfache und robuste Alternative für viele andere instanzbasierte Aufgaben dienen kann. Der Quellcode ist unter folgendem Link verfügbar: https://tinyurl.com/FCOSv1