SqueezeNAS: Schnelle neuronale Architektursuche für schnellere semantische Segmentierung

Für Echtzeit-Anwendungen, die Tief neuronalen Netze (DNNs) nutzen, ist es entscheidend, dass die Modelle sowohl eine hohe Genauigkeit in der Zielanwendung als auch eine schnelle Inferenz auf der Zielrechenplattform erzielen. Obwohl die Suchmethoden für neuronale Architekturen (Neural Architecture Search, NAS) erfolgreich zur Entwicklung von Netzwerken mit niedriger Latenz für die Bildklassifizierung eingesetzt wurden, gab es bisher relativ wenig Anstrengungen, NAS zur Optimierung von DNN-Architekturen für andere visuelle Aufgaben zu verwenden. In dieser Arbeit präsentieren wir, was wir für den ersten proxylosen hardwarebewussten Suchansatz für dichte semantische Segmentierung halten. Mit diesem Ansatz verbessern wir den Stand der Technik hinsichtlich der Genauigkeit von latenzoptimierten Netzwerken im Cityscapes-Semantiksegmentierungsdatensatz. Unser latenzoptimiertes kleines SqueezeNAS-Netzwerk erreicht einen Validierungs-Klassen-mIOU von 68,02 % bei Inferenzzeiten von weniger als 35 ms auf dem NVIDIA AGX Xavier. Unser latenzoptimiertes großes SqueezeNAS-Netzwerk erreicht einen Klassen-mIOU von 73,62 % bei Inferenzzeiten von weniger als 100 ms. Wir zeigen, dass durch die Nutzung von NAS zur Findung von Netzwerken, die sowohl für die spezifische Aufgabe als auch für die Inferenz-Hardware optimiert sind, erhebliche Leistungsverbesserungen möglich sind. Darüber hinaus stellen wir eine detaillierte Analyse vor, in der unsere Netzwerke mit aktuellen state-of-the-art-Architekturen verglichen werden.