HyperAIHyperAI
vor 17 Tagen

FBNetV5: Neural Architecture Search für mehrere Aufgaben in einer einzigen Ausführung

Bichen Wu, Chaojian Li, Hang Zhang, Xiaoliang Dai, Peizhao Zhang, Matthew Yu, Jialiang Wang, Yingyan Celine Lin, Peter Vajda
FBNetV5: Neural Architecture Search für mehrere Aufgaben in einer einzigen Ausführung
Abstract

Neural Architecture Search (NAS) ist weit verbreitet, um präzise und effiziente Modelle für die Bildklassifikation zu entwerfen. Die Anwendung von NAS auf neue Aufgaben im Bereich des Computer Vision erfordert jedoch weiterhin erheblichen Aufwand. Dies liegt an drei Hauptgründen: Erstens hat die bisherige NAS-Forschung stark auf die Bildklassifikation fokussiert und andere Aufgaben weitgehend ignoriert; zweitens konzentrieren sich viele NAS-Ansätze auf die Optimierung von aufgabenbezogenen Komponenten, die sich nicht vorteilhaft auf andere Aufgaben übertragen lassen; drittens sind bestehende NAS-Methoden typischerweise „proxyless“ ausgelegt und erfordern erheblichen Aufwand, um in die Trainingspipeline einer neuen Aufgabe integriert zu werden. Um diese Herausforderungen zu bewältigen, stellen wir FBNetV5 vor – einen NAS-Framework, der es ermöglicht, neuronale Architekturen für eine Vielzahl von Vision-Aufgaben mit deutlich reduziertem Rechenaufwand und menschlichem Aufwand zu suchen. Konkret haben wir folgende Komponenten entwickelt: 1) einen Suchraum, der einfach, dennoch umfassend und übertragbar ist; 2) einen mehraufgaben-orientierten Suchprozess, der entkoppelt von der Trainingspipeline der Zielaufgaben ist; und 3) einen Algorithmus, der gleichzeitig Architekturen für mehrere Aufgaben sucht, wobei der Rechenaufwand unabhängig von der Anzahl der Aufgaben bleibt. Wir evaluieren das vorgeschlagene FBNetV5 anhand dreier grundlegender Vision-Aufgaben: Bildklassifikation, Objektdetektion und semantische Segmentierung. Modelle, die mit FBNetV5 in einer einzigen Suchlauf-Phase gefunden wurden, übertrafen in allen drei Aufgaben die bisherigen State-of-the-Art-Methoden: bei der Bildklassifikation (z. B. +1,3 % ImageNet Top-1-Accuracy bei gleichem FLOPs im Vergleich zu FBNetV3), bei der semantischen Segmentierung (z. B. +1,8 % höheres ADE20K Val. mIoU im Vergleich zu SegFormer bei nur 3,6-fach weniger FLOPs) und bei der Objektdetektion (z. B. +1,1 % COCO Val. mAP bei nur 1,2-fach weniger FLOPs im Vergleich zu YOLOX).