HyperAIHyperAI
vor 2 Monaten

Faster R-CNN: Auf dem Weg zur Echtzeit-Objekterkennung mit Region Proposal Networks

Shaoqing Ren; Kaiming He; Ross Girshick; Jian Sun
Faster R-CNN: Auf dem Weg zur Echtzeit-Objekterkennung mit Region Proposal Networks
Abstract

Zustandsderkunst-Objekterkennungsnetze hängen von Regionenvorschlagsalgorithmen ab, um Objektstandorte zu hypothetisieren. Fortschritte wie SPPnet und Fast R-CNN haben die Laufzeit dieser Erkennungsnetze reduziert, was den Rechenaufwand für Regionenvorschläge als Engpass aufgezeigt hat. In dieser Arbeit stellen wir ein Region Proposal Network (RPN) vor, das vollbildkonvolutionelle Merkmale mit dem Erkennungsnetz teilt und so nahezu kostenfreie Regionenvorschläge ermöglicht. Ein RPN ist ein vollständig konvolutionsbasiertes Netzwerk, das gleichzeitig Objektgrenzen und Objektbewertungsscores an jeder Position vorhersagt. Das RPN wird von Anfang bis Ende trainiert, um hochwertige Regionenvorschläge zu generieren, die von Fast R-CNN zur Erkennung verwendet werden. Wir vereinen RPN und Fast R-CNN in einem einzigen Netzwerk durch Teilen ihrer konvolutionellen Merkmale – unter Verwendung der kürzlich populären Terminologie von neuronalen Netzen mit "Aufmerksamkeits"mechanismen (attention mechanisms) gibt das RPN-Komponente dem vereinten Netzwerk an, wo es hinsehen soll. Für das sehr tiefe VGG-16-Modell erreicht unser Erkennungssystem eine Bildwiederholrate von 5fps (einschließlich aller Schritte) auf einer GPU und erzielt den aktuellen Stand der Technik in der Objekterkennungsgenauigkeit auf den Datensätzen PASCAL VOC 2007, 2012 und MS COCO mit nur 300 Vorschlägen pro Bild. Bei den Wettbewerben ILSVRC und COCO 2015 bilden Faster R-CNN und RPN die Grundlage mehrerer ersten Platzierungen in verschiedenen Kategorien. Der Code wurde öffentlich zugänglich gemacht.