Die Wahrheit wird durch die Zeit enthüllt – zeitlich konsistente Tiefenschätzung durch einen mehrfach gesteuerten geometrischen und semantischen Szenenverstehensansatz ermöglicht

Eine robuste geometrische und semantische Szeneverstehung ist in vielen realen Anwendungen wie autonomen Fahrzeugen und Roboternavigation von zunehmender Bedeutung. In dieser Arbeit schlagen wir einen mehrfach aufgabenbasierten Lernansatz vor, der in der Lage ist, geometrisches und semantisches Szeneverstehen gleichzeitig durchzuführen, insbesondere Tiefenschätzung (monokulare Tiefenschätzung und Tiefen vervollständigung) und semantische Szenensegmentierung. Innerhalb eines einzigen zeitlich begrenzten rekurrenten Netzes nutzt unser Ansatz einzigartig eine komplexe Reihe von Skip-Verbindungen, feindliche Training (adversarial training) und die zeitliche Beschränkung der sequentiellen Rahmenerneuerung, um konsistente Tiefen- und semantische Klassenlabels gleichzeitig zu erzeugen. Ausführliche experimentelle Evaluierungen zeigen die Effektivität unseres Ansatzes im Vergleich zu anderen aktuellen Stand-der-Technik-Methoden.