Zum Verständnis von Szenen: Unüberwachte monokulare Tiefenschätzung mit semantikbewusster Darstellung

Die monokulare Tiefenschätzung ist eine herausfordernde Aufgabe im Bereich der Szenenverstehens, deren Ziel darin besteht, geometrische Eigenschaften des dreidimensionalen Raums aus zweidimensionalen Bildern abzuleiten. Aufgrund des Fehlens von RGB-Tiefen-Bildpaaren zielen unsupervisierte Lernmethoden darauf ab, Tiefeninformationen durch alternative Supervision, beispielsweise mittels Stereo-Paaren, zu erlangen. Allerdings modellieren die meisten bestehenden Ansätze die geometrische Struktur von Objekten nicht adäquat, was im Allgemeinen darauf zurückzuführen ist, dass während des Trainings ausschließlich pixelbasierte Zielfunktionen verwendet werden. In diesem Artikel stellen wir SceneNet vor, um diese Einschränkung durch die Nutzung semantischer Erkenntnisse aus der Segmentierung zu überwinden. Darüber hinaus ist unser vorgeschlagener Ansatz in der Lage, tiefensensitiv regionenbewusste Schätzungen durchzuführen, indem die Semantik-Konsistenz zwischen Stereo-Paaren erzwungen wird. In unseren Experimenten bestätigen wir qualitativ und quantitativ die Wirksamkeit und Robustheit unseres Modells, das gegenüber den aktuellen Stand der Technik vergleichbare oder sogar bessere Ergebnisse erzielt.