EfficientDet: Skalierbare und effiziente Objekterkennung

Die Effizienz von Modellen ist in der Computer Vision zunehmend von Bedeutung geworden. In diesem Paper untersuchen wir systematisch die Auswahl von Architekturparametern neuronaler Netze für die Objekterkennung und stellen mehrere zentrale Optimierungen vor, um die Effizienz zu steigern. Erstens schlagen wir ein gewichtetes bidirektionales Feature-Pyramiden-Netzwerk (BiFPN) vor, das eine einfache und schnelle Fusion mehrskaliger Merkmale ermöglicht. Zweitens führen wir eine zusammengesetzte Skalierungsmethode ein, die gleichzeitig die Auflösung, Tiefe und Breite aller Komponenten – einschließlich des Backbone-Netzwerks, des Merkmalsnetzwerks sowie der Box- und Klassenvorhersage-Netzwerke – einheitlich skaliert. Auf Basis dieser Optimierungen und verbesserter Backbone-Architekturen haben wir eine neue Familie von Objekterkennern entwickelt, die als EfficientDet bezeichnet wird und sich über einen breiten Bereich an Ressourcenbeschränkungen hinweg signifikant besser als bisherige Ansätze verhält. Insbesondere erreicht unser EfficientDet-D7 mit einem einzelnen Modell und einer einzelnen Skalierung eine state-of-the-art Genauigkeit von 55,1 AP auf dem COCO test-dev-Datensatz, bei lediglich 77 M Parametern und 410 B FLOPs – wodurch er 4- bis 9-fach kleiner ist und zwischen 13- und 42-fach weniger FLOPs verbraucht als frühere Detektoren. Der Quellcode ist unter https://github.com/google/automl/tree/master/efficientdet verfügbar.