Niedrigverzögerte Videosemantische Segmentierung

In den letzten Jahren wurde bei der semantischen Segmentierung erheblicher Fortschritt erzielt. Dennoch stellt die Anwendung von Segmentierungsverfahren in video-basierten Anwendungen weiterhin eine Herausforderung dar. Insbesondere präsentieren die hohe Durchsatzrate von Videostreams, die beträchtlichen Kosten für das Ausführen vollständig konvolutiver Netze sowie die geringen Latenzanforderungen in vielen realen Anwendungen, wie zum Beispiel im autonomen Fahren, eine erhebliche Herausforderung für die Gestaltung des Video-Segmentierungsrahmens. Um dieser kombinierten Herausforderung zu begegnen, entwickeln wir einen Rahmen für die semantische Video-Segmentierung, der zwei neuartige Komponenten integriert: (1) ein Feature-Propagation-Modul (Feature Propagation Module), das Features über die Zeit hinweg durch räumlich variante Konvolution adaptiv fusioniert und so die Kosten pro Bild reduziert; und (2) ein adaptiver Planer (adaptive scheduler), der basierend auf Genauigkeitsvorhersagen dynamisch Berechnungskapazitäten zuweist. Beide Komponenten arbeiten zusammen, um eine geringe Latenz zu gewährleisten, während gleichzeitig eine hohe Segmentierungsqualität aufrechterhalten wird. Bei den Benchmarks Cityscapes und CamVid erzielte der vorgeschlagene Rahmen vergleichbare Leistungen mit dem aktuellen Stand der Technik, wobei die Latenz deutlich reduziert wurde – von 360 ms auf 119 ms.