HyperAIHyperAI
vor 17 Tagen

Paralleles residuelles Bi-Fusion Feature Pyramid Network für präzise Single-Shot-Objektdetektion

Ping-Yang Chen, Ming-Ching Chang, Jun-Wei Hsieh, Yong-Sheng Chen
Paralleles residuelles Bi-Fusion Feature Pyramid Network für präzise Single-Shot-Objektdetektion
Abstract

Diese Arbeit stellt das Parallel Residual Bi-Fusion Feature Pyramid Network (PRB-FPN) für eine schnelle und präzise Ein-Schuss-Objektdetektion vor. Feature Pyramid (FP) wird in jüngster Zeit weit verbreitet in visuellen Detektionsaufgaben eingesetzt. Allerdings kann der top-down-Pfad von FP aufgrund von Pooling-Shifts keine genaue Lokalisierung gewährleisten. Mit zunehmender Tiefe der Backbone-Netzwerke, die mehr Schichten enthalten, nimmt die Stärke des FP ab. Zudem ist es dem FP nicht möglich, gleichzeitig eine präzise Detektion sowohl kleiner als auch großer Objekte zu gewährleisten. Um diese Probleme zu lösen, schlagen wir eine neue parallele FP-Struktur mit bidirektionaler (top-down und bottom-up) Fusion sowie zugehörige Verbesserungen vor, um hochwertige Merkmale für eine präzise Lokalisierung zu bewahren. Wir implementieren folgende Designverbesserungen: (1) Eine parallele Bi-Fusion-FP-Struktur mit einem bottom-up-Fusionsmodul (BFM), die es ermöglicht, sowohl kleine als auch große Objekte mit hoher Genauigkeit gleichzeitig zu detektieren. (2) Ein Concatenation and Re-organization (CORE)-Modul, das einen bottom-up-Pfad für die Merkmalsfusion bereitstellt und eine bidirektionale Fusion-FP ermöglicht, die verlorene Information aus niedrigeren Schichten der Merkmalskarten wiederherstellen kann. (3) Die CORE-Merkmale werden weiter verfeinert, um reichhaltigere kontextuelle Informationen zu bewahren. Diese CORE-Verfeinerung in sowohl top-down- als auch bottom-up-Pfaden kann bereits in wenigen Iterationen durchgeführt werden. (4) Die Einführung eines Residual-Entwurfs in CORE führt zu einem neuen Re-CORE-Modul, das ein einfaches Training ermöglicht und mit einer Vielzahl tieferer oder leichterer Backbone-Netzwerke problemlos integriert werden kann. Das vorgeschlagene Netzwerk erreicht state-of-the-art-Leistung auf den Datensätzen UAVDT17 und MS COCO. Der Quellcode ist unter https://github.com/pingyang1117/PRBNet_PyTorch verfügbar.