CBNet: Eine neue zusammengesetzte Backbone-Netzwerkarchitektur für die Objekterkennung

In bestehenden CNN-basierten Detektoren ist das Backbone-Netzwerk ein entscheidender Bestandteil für die grundlegende Merkmalsextraktion, und die Leistungsfähigkeit der Detektoren hängt stark davon ab. In dieser Arbeit zielen wir darauf ab, eine verbesserte Detektionsleistung durch den Aufbau eines leistungsfähigeren Backbone-Netzwerks aus bestehenden Architekturen wie ResNet und ResNeXt zu erzielen. Konkret schlagen wir eine neuartige Strategie zur Montage mehrerer identischer Backbone-Netzwerke vor, wobei benachbarte Backbone-Netzwerke durch zusammengesetzte Verbindungen miteinander verbunden werden, um ein leistungsfähigeres Backbone-Netzwerk namens Composite Backbone Network (CBNet) zu bilden. Auf diese Weise speist CBNet die Ausgangsmerkmale des vorherigen Backbone-Netzwerks – nämlich hochwertige Merkmale – schrittweise als Teil der Eingabemerkmale in das nachfolgende Backbone-Netzwerk ein, und zwar stufenweise. Schließlich werden die Merkmalskarten des letzten Backbone-Netzwerks (das Lead Backbone genannt wird) für die Objektdetektion verwendet. Wir zeigen, dass CBNet nahezu problemlos in die meisten aktuellen State-of-the-Art-Detektoren integriert werden kann und deren Leistung signifikant verbessert. Beispielsweise steigert CBNet die mAP von FPN, Mask R-CNN und Cascade R-CNN auf dem COCO-Datensatz um etwa 1,5 bis 3,0 Prozent. Gleichzeitig zeigen experimentelle Ergebnisse, dass auch die Ergebnisse der Instanzsegmentierung verbessert werden können. Insbesondere erreichen wir durch die einfache Integration von CBNet in den Baseline-Detektor Cascade Mask R-CNN eine neue State-of-the-Art-Leistung auf dem COCO-Datensatz (mAP von 53,3) mit einem einzigen Modell, was die hohe Effektivität der vorgeschlagenen CBNet-Architektur unterstreicht. Der Quellcode wird unter https://github.com/PKUbahuangliuhe/CBNet verfügbar gemacht.