ProNet: Lernen, Objekt-spezifische Boxen für kaskadierte Neuronale Netze vorzuschlagen

Dieses Papier zielt darauf ab, Objekte genauer und effizienter zu klassifizieren und zu lokalisieren, ohne die Verwendung von Bounding-Box-Annotierungen. Dies ist eine Herausforderung, da Objekte in der Natur an beliebigen Positionen und in verschiedenen Größen auftreten können. In dieser Arbeit schlagen wir eine neuartige Klassifikationsarchitektur vor, die ProNet genannt wird und auf Faltungsneuronale Netze (Convolutional Neural Networks) basiert. Sie verwendet rechenintensive Neuronale Netze, um Bildbereiche vorzuschlagen, die wahrscheinlich Objekte enthalten, und wendet leistungsfähigere, aber langsamere Netze auf den vorgeschlagenen Bereichen an. Das grundlegende Bauelement ist ein mehrskaliges vollständig faltungsnetzes (fully-convolutional network), das Objektvertrauenswerte (object confidence scores) für Boxen an verschiedenen Positionen und Skalen zuweist. Wir zeigen, dass solche Netze effektiv mit bildbasierten Annotierungen trainiert werden können und in Kaskaden oder Bäumen verbunden werden können, um eine effiziente Objektklassifikation zu ermöglichen. ProNet übertrifft den bisherigen Stand der Technik erheblich bei der Objektklassifikation und punktbasierten Lokalisierung auf den Datensätzen PASCAL VOC 2012 und MS COCO.