ThunderNet: Auf dem Weg zur Echtzeit-Objekterkennung

Echtzeit-Generische Objekterkennung auf mobilen Plattformen ist eine wichtige, aber herausfordernde Aufgabe im Bereich der Computer Vision. Allerdings leiden bisherige CNN-basierte Detektoren unter einem enormen Rechenaufwand, der sie von einer Echtzeit-Inferenz in berechnungsbeschränkten Szenarien abhält. In dieser Arbeit untersuchen wir die Effektivität zweistufiger Detektoren bei der generischen Echtzeit-Erkennung und schlagen einen leichten zweistufigen Detektor namens ThunderNet vor. Im Backbone-Teil analysieren wir die Nachteile früherer leichtgewichtiger Backbones und präsentieren einen leichtgewichtigen Backbone, der für die Objekterkennung konzipiert wurde. Im Erkennungs-Teil nutzen wir eine extrem effiziente Region Proposal Network (RPN) und ein Design des Erkennungskopfs. Um eine stärker differenzierende Merkmalsrepräsentation zu erzeugen, entwickeln wir zwei effiziente Architekturblöcke: das Kontextverstärkungsmodul (Context Enhancement Module) und das räumliche Aufmerksamkeitsmodul (Spatial Attention Module). Schließlich untersuchen wir das Gleichgewicht zwischen der Eingabeauflösung, dem Backbone und dem Erkennungskopf. Verglichen mit leichtgewichtigen einstufigen Detektoren erreicht ThunderNet auf den Benchmarks PASCAL VOC und COCO eine überlegene Leistung mit nur 40 % des Rechenaufwands. Ohne zusätzliche Optimierungen läuft unser Modell auf einem ARM-basierten Gerät mit 24,1 Bildern pro Sekunde (fps). Nach bestem Wissen ist dies der erste berichtete Echtzeit-Detektor auf ARM-Plattformen. Unser Code und unsere Modelle sind unter \url{https://github.com/qinzheng93/ThunderNet} verfügbar.