vor 18 Tagen

CBNet: Eine zusammengesetzte Backbone-Netzwerkarchitektur für die Objekterkennung

Tingting Liang, Xiaojie Chu, Yudong Liu, Yongtao Wang, Zhi Tang, Wei Chu, Jingdong Chen, Haibin Ling

Abstract

Moderne, hochleistungsstarke Objektdetektoren beruhen stark auf Backbone-Netzwerken, deren Weiterentwicklungen durch die Exploration effektiverer Netzwerkarchitekturen konsistente Leistungssteigerungen ermöglichen. In diesem Artikel stellen wir einen neuartigen und flexiblen Backbone-Framework namens CBNetV2 vor, der es erlaubt, hochleistungsfähige Detektoren unter dem Pre-Training-Fine-Tuning-Paradigma mit bereits existierenden, öffentlich verfügbaren vortrainierten Backbones zu konstruieren. Insbesondere gruppiert die CBNetV2-Architektur mehrere identische Backbones, die über zusammengesetzte Verbindungen miteinander verbunden sind. Konkret integriert sie hoch- und niederwertige Merkmale mehrerer Backbone-Netzwerke und erweitert schrittweise den Rezeptionsfeldbereich, um die Objektdetektion effizienter zu gestalten. Außerdem entwickeln wir eine verbesserte Trainingsstrategie mit assistierender Supervision für CBNet-basierte Detektoren. Ohne zusätzliche Vortrainierung des zusammengesetzten Backbones kann CBNetV2 an verschiedene Backbones (CNN-basiert vs. Transformer-basiert) und Head-Architekturen der meisten gängigen Detektoren (ein-stufig vs. zwei-stufig, anchor-basiert vs. anchor-frei) angepasst werden. Experimente liefern starke Hinweise darauf, dass CBNetV2 im Vergleich zur einfachen Erhöhung der Tiefe und Breite des Netzwerks eine effizientere, effektivere und ressourcenschonendere Methode zur Konstruktion hochleistungsfähiger Backbones darstellt. Insbesondere erreicht unser Dual-Swin-L bei der COCO test-dev-Testung unter dem Single-Model- und Single-Scale-Protokoll eine Box-AP von 59,4 % und eine Mask-AP von 51,6 %, was deutlich besser ist als das aktuelle Stand der Technik (57,7 % Box-AP und 50,2 % Mask-AP) von Swin-L, wobei der Trainingszeitplan um den Faktor 6 reduziert wurde. Bei Multi-Scale-Testung erreichen wir mit einem einzigen Modell einen neuen Rekordwert von 60,1 % Box-AP und 52,3 % Mask-AP, ohne zusätzliche Trainingsdaten zu verwenden. Der Quellcode ist unter https://github.com/VDIGPKU/CBNetV2 verfügbar.