PAD-Net: Mehrfach-Aufgaben-gesteuertes Vorhersage-und-Destillationsnetzwerk für gleichzeitige Tiefenschätzung und Szenenanalyse

Tiefenschätzung und Szeneanalyse sind zwei besonders wichtige Aufgaben im Bereich der visuellen Szenenverstehens. In dieser Arbeit adressieren wir das Problem der gleichzeitigen Tiefenschätzung und Szeneanalyse in einem gemeinsamen CNN (Convolutional Neural Network). Diese Aufgabe kann typischerweise als ein tiefes Multi-Task-Lernen-Problem behandelt werden [42]. Im Gegensatz zu früheren Methoden, die mehrere Aufgaben direkt anhand der Eingangstrainingdaten optimieren, schlägt diese Arbeit ein neues Multi-Task-gesteuertes Vorhersage-und-Distillationsnetzwerk (PAD-Net) vor. Zunächst prognostiziert dieses Netzwerk eine Reihe von Zwischenaufgaben, die von niedrigem bis hohem Niveau reichen. Anschließend werden die Vorhersagen dieser Zwischenaufgaben durch unsere vorgeschlagenen Multi-Modal-Distillationsmodule als multimodales Eingangsdatenmaterial für die endgültigen Aufgaben genutzt. Während des gemeinsamen Lernprozesses dienen die Zwischenaufgaben nicht nur als Überwachung zur Erstellung robuster tiefer Darstellungen, sondern bieten auch reichhaltige multimodale Informationen, um die endgültigen Aufgaben zu verbessern. Ausführliche Experimente wurden auf zwei anspruchsvollen Datensätzen (nämlich NYUD-v2 und Cityscapes) sowohl für die Tiefenschätzung als auch für die Szeneanalyse durchgeführt, wodurch die Effektivität des vorgeschlagenen Ansatzes demonstriert wird.