vor 17 Tagen

MnasFPN: Lernen einer latenzbewussten Pyramidenarchitektur für Objekterkennung auf mobilen Geräten

Bo Chen, Golnaz Ghiasi, Hanxiao Liu, Tsung-Yi Lin, Dmitry Kalenichenko, Hartwig Adams, Quoc V. Le

Abstract

Trotz des wachsenden Erfolgs von Architektursuchen für visuelle Aufgaben in ressourcenbeschränkten Umgebungen bleibt die Gestaltung von On-Device-Objekterkennungsarchitekturen überwiegend manuell. Die wenigen automatisierten Ansätze konzentrieren sich entweder auf nicht mobilfreundliche Suchräume oder werden nicht durch die Latenz auf dem Gerät geleitet. Wir stellen MnasFPN vor, einen mobilfreundlichen Suchraum für den Detektionskopf, und kombinieren ihn mit einer latenzbewussten Architektursuche, um effiziente Objekterkennungsmodelle zu erzeugen. Der gelernte MnasFPN-Kopf, kombiniert mit dem MobileNetV2-Grundkörper, erreicht auf Pixel-Geräten eine Verbesserung von 1,8 mAP gegenüber MobileNetV3+SSDLite bei vergleichbarer Latenz. Zudem ist er sowohl um 1,0 mAP genauer als auch 10 % schneller als NAS-FPNLite. Ablationsstudien zeigen, dass der größte Teil der Leistungssteigerung auf Innovationen im Suchraum zurückzuführen ist. Weitere Untersuchungen offenbaren eine interessante Wechselwirkung zwischen der Gestaltung des Suchraums und dem Suchalgorithmus, und deuten darauf hin, dass die Komplexität des MnasFPN-Suchraums möglicherweise einem lokalen Optimum nahekommt.