HyperAIHyperAI

Command Palette

Search for a command to run...

CBNet: Eine zusammengesetzte Backbone-Netzwerkarchitektur für die Objekterkennung

Tingting Liang Xiaojie Chu Yudong Liu Yongtao Wang Zhi Tang Wei Chu Jingdong Chen Haibin Ling

Zusammenfassung

Moderne, hochleistungsstarke Objektdetektoren beruhen stark auf Backbone-Netzwerken, deren Weiterentwicklungen durch die Exploration effektiverer Netzwerkarchitekturen konsistente Leistungssteigerungen ermöglichen. In diesem Artikel stellen wir einen neuartigen und flexiblen Backbone-Framework namens CBNetV2 vor, der es erlaubt, hochleistungsfähige Detektoren unter dem Pre-Training-Fine-Tuning-Paradigma mit bereits existierenden, öffentlich verfügbaren vortrainierten Backbones zu konstruieren. Insbesondere gruppiert die CBNetV2-Architektur mehrere identische Backbones, die über zusammengesetzte Verbindungen miteinander verbunden sind. Konkret integriert sie hoch- und niederwertige Merkmale mehrerer Backbone-Netzwerke und erweitert schrittweise den Rezeptionsfeldbereich, um die Objektdetektion effizienter zu gestalten. Außerdem entwickeln wir eine verbesserte Trainingsstrategie mit assistierender Supervision für CBNet-basierte Detektoren. Ohne zusätzliche Vortrainierung des zusammengesetzten Backbones kann CBNetV2 an verschiedene Backbones (CNN-basiert vs. Transformer-basiert) und Head-Architekturen der meisten gängigen Detektoren (ein-stufig vs. zwei-stufig, anchor-basiert vs. anchor-frei) angepasst werden. Experimente liefern starke Hinweise darauf, dass CBNetV2 im Vergleich zur einfachen Erhöhung der Tiefe und Breite des Netzwerks eine effizientere, effektivere und ressourcenschonendere Methode zur Konstruktion hochleistungsfähiger Backbones darstellt. Insbesondere erreicht unser Dual-Swin-L bei der COCO test-dev-Testung unter dem Single-Model- und Single-Scale-Protokoll eine Box-AP von 59,4 % und eine Mask-AP von 51,6 %, was deutlich besser ist als das aktuelle Stand der Technik (57,7 % Box-AP und 50,2 % Mask-AP) von Swin-L, wobei der Trainingszeitplan um den Faktor 6 reduziert wurde. Bei Multi-Scale-Testung erreichen wir mit einem einzigen Modell einen neuen Rekordwert von 60,1 % Box-AP und 52,3 % Mask-AP, ohne zusätzliche Trainingsdaten zu verwenden. Der Quellcode ist unter https://github.com/VDIGPKU/CBNetV2 verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp