vor 17 Tagen

SpineNet: Lernen eines skalenpermutierten Backbones für Erkennung und Lokalisierung

Xianzhi Du, Tsung-Yi Lin, Pengchong Jin, Golnaz Ghiasi, Mingxing Tan, Yin Cui, Quoc V. Le, Xiaodan Song

Abstract

Convolutional Neural Networks kodieren Eingabebilder typischerweise in eine Reihe von Zwischenmerkmalen mit abnehmender Auflösung. Während diese Struktur für Klassifikationsaufgaben gut geeignet ist, erzielt sie bei Aufgaben, die gleichzeitige Erkennung und Lokalisierung erfordern (z. B. Objektdetektion), nur mäßige Ergebnisse. Encoder-Decoder-Architekturen wurden vorgeschlagen, um dieses Problem zu lösen, indem ein Dekodernetzwerk auf einem Hintergrundmodell aufgebaut wird, das für Klassifikationsaufgaben entworfen wurde. In diesem Artikel argumentieren wir, dass Encoder-Decoder-Architekturen aufgrund des skalenreduzierten Hintergrundmodells ineffektiv sind, wenn es darum geht, starke multiskalige Merkmale zu generieren. Wir stellen SpineNet vor, ein Hintergrundmodell mit skalenpermutierten Zwischenmerkmalen und querskaligen Verbindungen, das mittels Neural Architecture Search auf einer Objektdetektionsaufgabe gelernt wurde. Mit ähnlichen Bausteinen übertrifft das SpineNet-Modell ResNet-FPN-Modelle um ca. 3 % AP bei verschiedenen Skalen, wobei es 10–20 % weniger FLOPs benötigt. Insbesondere erreicht SpineNet-190 bei Verwendung eines Mask R-CNN-Detektors 52,5 % AP und bei Verwendung eines RetinaNet-Detektors 52,1 % AP auf COCO für ein einzelnes Modell ohne Testzeit-Augmentation und übertrifft damit signifikant vorherige State-of-the-Art-Methoden. SpineNet lässt sich auch auf Klassifikationsaufgaben übertragen und erreicht auf einem anspruchsvollen iNaturalist-Datensatz mit feinabgestufter Klassifikation eine Verbesserung der Top-1-Accuracy um 5 %. Der Quellcode ist verfügbar unter: https://github.com/tensorflow/tpu/tree/master/models/official/detection.