M2Det: Ein Single-Shot-Objekterkennungssystem basierend auf einem Multi-Level-Feature-Pyramid-Netzwerk

Merkmalspyramiden werden von den modernsten einstufigen Objekterkennern (z.B. DSSD, RetinaNet, RefineDet) und den zweistufigen Objekterkennern (z.B. Mask R-CNN, DetNet) weitgehend genutzt, um das Problem der Skalenvariation zwischen verschiedenen Objektinstanzen zu mildern. Obwohl diese Objekterkennersysteme mit Merkmalspyramiden ermutigende Ergebnisse erzielen, haben sie einige Einschränkungen, da sie die Merkmalspyramide lediglich auf Grundlage der inhärenten mehrskaligen, pyramidalen Architektur der Backbones konstruieren, die tatsächlich für die Objektklassifizierung entwickelt wurden. In dieser Arbeit stellen wir eine Methode vor, die als Multi-Level Feature Pyramid Network (MLFPN) bezeichnet wird und effektivere Merkmalspyramiden zur Erkennung von Objekten unterschiedlicher Größen erstellt. Zunächst fügen wir Merkmale aus mehreren Ebenen zusammen, die durch den Backbone extrahiert werden, um eine Basismerkmalskarte zu bilden. Anschließend geben wir diese Basismerkmale in einen Block alternierender verbundener dünnwandiger U-förmiger Module (Thinned U-shape Modules) und Merkmalfusionsmodule (Feature Fusion Modules) ein und nutzen die Dekodierschichten jedes U-förmigen Moduls als Merkmale für die Objekterkennung. Schließlich kombinieren wir die Dekodierschichten gleicher Skala (Größe), um eine für die Objekterkennung optimierte Merkmalspyramide zu erstellen, bei der jede Merkmalkarte aus Schichten verschiedener Ebenen besteht. Um die Effektivität des vorgeschlagenen MLFPN zu bewerten, entwerfen und trainieren wir einen leistungsfähigen einstufigen End-to-End-Objekterkenner namens M2Det, indem wir es in die Architektur von SSD integrieren. Dies führt zu einer besseren Erkennungsleistung im Vergleich zu den modernsten einstufigen Detektoren. Insbesondere erreicht M2Det auf dem MS-COCO-Benchmark einen AP-Wert von 41,0 bei einer Geschwindigkeit von 11,8 FPS unter Verwendung einer Ein-Skalen-Inferenzstrategie und einen AP-Wert von 44,2 unter Verwendung einer Mehr-Skalen-Inferenzstrategie. Diese Werte stellen neue Spitzenwerte unter den einstufigen Detektoren dar. Der Code wird auf \url{https://github.com/qijiezhao/M2Det} verfügbar gemacht.