Verbesserung der semantischen Segmentierung durch Videoausbreitung und Etikettrelaxierung

Semantische Segmentierung erfordert große Mengen an pixelgenauen Annotationen, um genaue Modelle zu trainieren. In dieser Arbeit stellen wir eine videobasierte Methodik vor, die es ermöglicht, Trainingsdatensätze durch die Synthese neuer Trainingsbeispiele zu vergrößern, um die Genauigkeit von semantischen Segmentierungsnetzwerken zu verbessern. Wir nutzen die Fähigkeit von Videovorhersagemodellen, zukünftige Frames vorherzusagen, um auch zukünftige Labels vorherzusagen. Zudem schlagen wir eine gemeinsame Fortpflanzungsstrategie vor, um Fehlanpassungen in den synthetisierten Beispielen zu mildern. Wir zeigen, dass das Training von Segmentierungsmodellen auf durch synthetisierte Beispiele erweiterten Datensätzen zu erheblichen Genauigkeitsverbesserungen führt. Des Weiteren führen wir eine neuartige Technik zur Entspannung von Randlabels ein, die das Training gegenüber Annotationsschwankungen und Fortpflanzungseffekten entlang von Objekträndern robuster macht. Unsere vorgeschlagenen Methoden erreichen Stand-der-Technik mIoUs (mean Intersection over Union) von 83,5 % auf Cityscapes und 82,9 % auf CamVid. Unser einzelnes Modell ohne Modellensembles erreicht einen mIoU von 72,8 % auf dem KITTI-Semantiksegmentierungstestset, was den Gewinnerbeitrag des ROB-Challenges 2018 übertrifft. Unser Code und Videos sind unter https://nv-adlr.github.io/publication/2018-Segmentation abrufbar.