Schnelle Neuronale Architektur Suche von kompakten Semantischen Segmentierungsmodellen durch Hilfszellen

Die automatisierte Gestaltung von Neuronalnetz-Architekturen, die für eine spezifische Aufgabe zugeschnitten sind, ist ein äußerst vielversprechender, jedoch inhärent schwieriger Forschungsweg. Obwohl die meisten Ergebnisse in diesem Bereich bei Bildklassifikations- und Sprachmodellierungsproblemen erzielt wurden, konzentrieren wir uns hier auf dichte Pixel-basierte Aufgaben, insbesondere semantische Bildsegmentierung mit vollständig konvolutiven Netzen (Fully Convolutional Networks). Im Gegensatz zu den genannten Bereichen erfordern die Gestaltungsoptionen eines vollständig konvolutiven Netzes mehrere Anpassungen, von der Art der zu verwendenden Operationen – wie zum Beispiel dilatierte Faltungen (dilated convolutions) – bis hin zur Lösung eines schwierigeren Optimierungsproblems. In dieser Arbeit interessieren wir uns insbesondere für die Suche nach hochleistungsfähigen kompakten Segmentierungsarchitekturen, die in Echtzeit unter eingeschränkten Ressourcen laufen können. Um dies zu erreichen, überparametrisieren wir die Architektur absichtlich während der Trainingsphase durch eine Reihe von Hilfszellen, die ein Zwischensupervisionsignal liefern und während der Evaluierungsphase weggelassen werden können. Die Gestaltung der Hilfszelle wird von einem Steuergerät ausgegeben, einem neuronalen Netz mit fester Struktur, das mittels Reinforcement Learning trainiert wird. Noch wichtiger ist, dass wir zeigen, wie man effizient nach diesen Architekturen suchen kann, wenn nur begrenzte Zeit und Rechenkapazitäten zur Verfügung stehen. Insbesondere setzen wir auf eine progressive Strategie, die nicht vielversprechende Architekturen aus dem weiteren Training ausschließt, sowie auf Polyak-Durchschnittsbildung in Verbindung mit Wissensdistillierung zur Beschleunigung der Konvergenz. Quantitativ entdeckt unser Ansatz innerhalb von 8 GPU-Tagen eine Reihe von Architekturen, deren Leistung den aktuellen Stand der Technik bei kompakten Modellen in den Aufgaben der semantischen Segmentierung, Pose-Schätzung und Tiefenschätzung entspricht. Der Quellcode wird hier verfügbar gemacht: https://github.com/drsleep/nas-segm-pytorch