ViP-DeepLab: Lernen der visuellen Wahrnehmung mit tiefenbewusster Video-Panoramasegmentierung

In dieser Arbeit stellen wir ViP-DeepLab vor, ein vereintes Modell, das sich der langjährigen und anspruchsvollen inversen Projektionsproblematik in der Bildverarbeitung widmet. Dieses Problem modellieren wir als die Rekonstruktion von Punktwolken aus perspektivischen Bildsequenzen, wobei jedem Punkt eine semantische Interpretation auf Instanzebene zugeordnet wird. Die Lösung dieses Problems erfordert, dass die Bildverarbeitungsmodelle die räumliche Position, die semantische Klasse und ein zeitlich konsistentes Instanzlabel für jeden 3D-Punkt vorhersagen. ViP-DeepLab greift diese Aufgabe durch die gleichzeitige Durchführung der Tiefenschätzung bei monokularen Kameras und der Panoramasegmentierung von Videos an. Wir bezeichnen diese kombinierte Aufgabe als tiefenbewusste Video-Panoramasegmentierung (Depth-aware Video Panoptic Segmentation) und schlagen dazu ein neues Evaluationsmaß sowie zwei abgeleitete Datensätze vor, die der Öffentlichkeit zur Verfügung gestellt werden. Bei den einzelnen Teilproblemen erreicht ViP-DeepLab ebenfalls standortspezifisch erstklassige Ergebnisse: Es übertrifft frühere Methoden um 5,1 % VPQ (Video Panoptic Quality) auf Cityscapes-VPS, rangiert an erster Stelle im Benchmark für monokulare Tiefenschätzung von KITTI und steht auch an erster Stelle bei KITTI MOTS für Fußgänger. Die Datensätze und die Evaluationscodes werden öffentlich zugänglich gemacht.